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内 容 提 要 

计算 广告 是 一 项 新 兴 的 研究 课题 ， 它 涉及 大 规模 搜索 和 文本 分 析 、 信 息 获 取 、 
统计 模型 、 机 器 学 习 、 分 类 、 优 化 以 及 微观 经 济 学 等 诸多 领域 的 知识 。 本 书 从 实践 
出 友 ， 系 统 地 介绍 计算 广告 的 产品 、 问 题 、 系 统 和 算法 ， 并 且 从 工业 界 的 视角 对 这 
一 领域 具体 扩 术 的 深入 剖析 。 

本 书 立足 于 广告 市 场 的 根本 问题 ， 从 计算 广告 各 个 阶段 所 遇 到 的 市 场 挑战 出 
发 ， 以 广告 系统 业务 形态 的 需求 和 变化 为 主线 ， 依 次 介绍 合约 广告 系统 、 竞 价 广告 
系统 、 程 序 化 交易 市 场 等 重要 课题 ， 并 对 计算 广告 涉及 的 关键 扩 术 和 算法 做 深入 的 
探讨 。 

无 论 是 互联 网 公司 商业 化 部 门 的 产品 技术 人 员 ， 还 是 对 个 性 化 系统 、 大 数据 变 
现 或 交易 有 兴趣 的 产品 技术 人 员 ， 传 统 企 业 互联 网 化 进程 的 决策 者 ， 传 统 广告 业务 
的 从 业者 ， 互 联网 创业 者 ， 计 算 机 相关 专业 研究 生 ， 都 会 从 阅读 本 书 中 受益 菲 浅 。 
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以 下 后 评 分 领域 以 点 评 人 的 姓氏 笔画 为 序 排列 。 
互联 网 公司 管理 层 
在 线 广告 市 场 是 比较 复杂 的 体系 ， 它 贯穿 了 互联 网 生态 链 的 各 种 角色 。xj 鹏 的 
著作 既 从 两 业 角 度 介绍 了 在 线 广 告 ， 也 深入 到 了 广告 的 技术 和 算法 层面 ， 还 包括 对 
于 一 个 大 规模 竞价 市 场 在 市 场 设计 方面 的 相关 原理 和 优化 机 会 。 这 本 书 不 仅 是 了 解 
在 线 广 告 市 场 的 途径 ， 也 是 了 解 互 联网 商业 和 鳃 利 模式 设计 的 窗口 ， 同 时 对 于 互联 
网 产品 设计 会 有 很 好 的 参考 作用 。 
一 一 王 华 ( 6 超凡 Derek ) ， 阿 里 巴巴 副 总 裁 ， 阿 里 妈妈 负责 
这 是 一 本 非常 系统 、 全 面 地 介绍 计算 广告 的 书 ， 一 本 在 线 广告 专业 人 员 必 读 的 
书 ， 一 本 值得 强烈 推荐 给 想 利 用 互联 网 力量 的 企业 主 和 决策 制定 者 和 对 大 数据 价值 
感 兴趣 的 研究 人 员 和 工程 师 的 书 。 虽 然 我 亦 曾 杀 眼目 睹 广告 业 人 在 20 世纪 96 年 代 
开始 的 革命 ， 一 直 积 极 参 与 在 线 广 告 的 演变 ， 但 阅读 完 这 本 书 ， 我 对 计算 广告 整个 
图 景 以 及 很 多 细微 之 处 有 了 更 多 更 深刻 的 理解 。 
一 一 毛 建 昌 ， 微软 Distinguished Engineer 和 Bing 广 告 工程 负责 人 ， 前 雅虎 
SOT) SE Sell 
十 多 年 的 实践 证 明 ， 互 联网 最 有 效 的 商业 模式 莫 过 于 可 以 把 流量 直接 变现 的 在 
线 广告 模式 。 从 最 初 铺天盖地 的 横幅 广告 起 步 ， 到 人 群 及 兴趣 精准 定向 的 搜索 广告 
与 推荐 引擎 ， 和 直到 与 内 容 环境 融 为 一 体 的 原生 广告 ， 用户 需求 与 口味 的 不 断 变 迁 促 
使 着 广告 产品 与 技术 持续 不 断 地 升级 与 发 酵 。 本 书 最 大 的 亮点 在 于 ， 作 者 从 中 国 互 
联网 广告 发 展 全 过 程 杀 历 者 的 视角 ， 极为 系统 地 讲述 了 计算 广告 的 产品 设计 思维 与 
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变现 课题 的 方方面面 。 无 论 是 产品 经 理 还 是 工程 师 ， 如若 准 备 投身 于 这 一 互联 网 最 
大 的 金 矿 领域 ， 此 书 是 手边 必须 常备 的 工具 书 与 教材 。 
一 一 刘 子 正 (@XUFIE) | ME RS al Oe 
本 书 内 容 全 面 且 与 时 俱 进 ， 对 核心 技术 的 介绍 深入 浅 出 ， 是 计算 广告 领域 一 本 
SHR. ABM ， 涵 荔 了 在 线 广告 市 场 及 核心 技术 的 各 个 方面 ， 除 了 主 
流 技术 以 外 ， 对 一 些 其 他 著作 很 少 涉及 的 方面 ， 如 广告 创意 优化 、 反 欺诈 、 隐 私 保 
护 等 也 进行 了 介绍 。 本 书 内 容 新 疾 ， 把 近年 涌现 出 的 一 些 新 的 广告 形式 和 技术 ， 如 
实时 竞价 的 广告 交易 、 原 生 广告 等 ， 都 宫 括 其 中 。 另 外 ， 本 书 行文 流畅 、 风 辑 清 
晰 ， 对 核心 技术 的 介绍 深入 到 位 ， 包 含 了 重要 的 算法 细节 以 及 理论 探讨 ， 对 计算 广 
告 的 从 业者 而 言 ， 是 一 本 非常 实用 的 参考 书 。 
一 一 刘 铁 宕 (OXE ) ， 微 软 亚 洲 研 究 院 首席 研究 员 
在 互联 网 深入 改造 传统 行业 的 进程 中 ， 所 谓 “ 壮 毛 出 在 猪 身 上 ”的 后 向 变现 商 
业 策 略 人 至 关 重 要 。 市 场 上 并 不 乏 天 于 这 一 策略 的 推崇 和 讨论 ， 不 过 本 书 从 实战 的 角 
度 出 友 ， 对 其 中 关键 的 商业 风 辑 和 产品 结构 作 了 全 面 的 梳理 ， 而 这 些 对 于 商业 化 战 
略 的 落地 至 天 重要 。 因 此 ， 我 推荐 所 有 正 处 在 互联 网 化 变革 行业 的 从 业者 们 阅读 本 
书 ， 结 合 各 目的 知识 背景 和 行业 问题 ， 相 信 你 们 一 定 可 以 从 本 书 中 找到 有 指导 意义 
的 内 容 。 
一 一 陈彤 ( @ 老 沉 ) ， 小 米内 容 运 营 和 投资 副 忌 裁 
划 鹏 博士 是 我 以 前 在 微软 时 的 同事 ， 他 博学 蹇 智 ， 融 会 文理 ， 给 我 留 下 深刻 印 
象 。 他 将 多 年 积累 的 相关 经 验 与 成 果 整 理 成 国内 第 一 部 正式 出 版 的 计算 广告 著作 ， 
值得 向 大 家 强烈 推荐 。 这 本 书 将 该 领域 的 实际 商业 问题 与 技术 解决 方案 结合 起 来 ， 
让 读者 对 计算 广告 的 理论 与 实践 、 应 用 与 技术 、 系 统 与 方法 有 全 面 深入 的 了 解 和 认 
知 。 对 于 已 经 掌握 了 机 器 学 习 、 数 据 挖 据 技术 的 从 业者 、 技 术 人 员 、 教 师 和 学 生 ， 


RREAN SRA , Xe — SPEAR. 
一 一 李 航 ( 6 李 航 博士 ) ， 华 为 诺 亚 方舟 实验 室 主任 

互联 网 业内 人 士 都 清楚 流量 的 作用 ， 流 量 之 于 互联 网 ， 正 如 血液 之 于 人 体 。 不 
同 之 处 在 于 ， 互 联网 上 的 流量 是 趋 利 的 ， 变 现 能 力 决定 了 流量 的 方向 和 价值 。 计 算 
广告 是 流量 变现 最 重要 的 方式 之 一 。 只 有 了 解 了 互联 网 广告 的 精髓 ， 才 能 真正 懂得 
互联 网 上 流量 的 奥秘 ， 也 才能 懂得 互联 网 的 奥秘 。 本 书 作 者 对 互联 网 广告 的 市 场 、 
产品 和 技术 做 了 全 面 、 深 刻 的 剖析 ， 为 业内 外 人 士 理 解 并 踏 入 这 个 领域 提供 了 一 条 
捷径 。 尽 管 本 人 从 事 互 联网 广告 研 友 多 年 ， 也 是 第 一 次 读 到 如 此 系统 的 著作 ， 受 益 
HE; ! 
AF (QOL) ， 百 度 高 级 技术 总 监 

我 们 的 团队 花 了 大 量 精 力 寻找 和 调研 国内 外 的 相关 资料 和 文献 ， 却 一 直 藻 于 没 
有 一 套 相 对 完整 的 知识 体系 来 帮助 我 们 的 业务 和 技术 人 员 加 快 学 习 、 少 走 弯 路 。 
此 ， 我 期 待 这 样 一 本 书 的 出 现 至 少 已 经 有 两 三 年 的 时 间 。 作 为 一 | 方兴未艾 而 友 展 
迅猛 的 新 兴 产 业 ， 我 相信 刘 鹏 的 这 套 科学 上 且 实 际 的 知识 体系 ， 将 对 数字 车 销 领域 的 
同仁 有 非常 大 的 指导 价值 。 程 序 化 营销 、 大 数据 应 用 是 友 展 异常 迅猛 的 产业 ， 涉 
大 量 的 产品 、 工 程 以 及 算法 ， 也 涉及 相当 多 的 商业 逻辑 的 深刻 洞察 。 而 刘 鹏 通过 对 
产业 内 在 逻辑 的 诠释 和 推演 贯穿 程序 化 营销 产业 的 友 展 ， 对 我 们 真正 把 握 大 数据 给 
各 个 产业 市 来 的 深刻 变化 和 影响 ， 有 具有 深刻 的 指导 意义 。 

— —hMhNu£b ( 6@ 杨 炯 纬 ) ，366 副 总 裁 ， 聚 效 广告 CE0 

如 果 说 当年 Yahoo! 广告 首席 科学 家 Andrei Broder 在 斯 坦 福 开设 的 课程 第 一 
次 把 计算 广告 学 作为 一 门 学 科 ， 那 么 这 本 《计算 广告 》 堪 称 这 门 新 兴学 科 的 第 一 本 
教科 书 ， 因 为 这 是 首次 全 面 系统 地 疼 述 计算 广告 学 的 著作 ， 覆 蘑 了 商业 逻辑 、 产 品 
结构 、 天 键 技术 、 工 程 实践 和 应 用 实例 。 在 内 容 结 构 编排 上 ， 本 书 由 浅 入 深 ， MA 
观 背 景 到 技术 细节 ， 从 经 典 的 搜索 广告 到 最 新 的 实时 竞价 ， 既 适合 作为 从 事 在 线 广 





告 的 商务 运营 人 员 的 参考 书 ， 也 适合 作为 一 线 技术 开 友 人 员 的 实战 撒 导 。 
余 凯 ( 6 余 岂 西 二 旗 民 工 ) ， 百 度 研 究 院 副 院 长 ， 深 度 学 习 实 验 室 主任 
计算 广告 近年 来 特别 热 ， 全 球 大 小 互联 网 公司 有 大 量 的 算法 工程 师 、 系 统 工程 
师 、 数 据 科学 家 在 从 事 与 此 相关 的 工作 。 正 如 刘 鹏 在 书 中 指出 的 ， 流 量变 现 和 数据 
变现 是 很 多 互联 网 公司 商业 模型 的 核心 。 虽 然 学 术 界 和 工业 界 有 大 量 与 计算 广告 相 
关 的 文章 ， 但 或 侧重 于 算法 ， 或 侧重 于 系统 ， 抑 或 侧重 于 商业 逻辑 ， 却 很 少 能 像 本 
书 一 样 把 这 几 个 维度 融会 贯通 地 串 在 一 起 ， 既 有 连贯 性 、 有 上 广度， 又 有 足够 的 深 
度 。x 鹏 过 去 几 年 中 伦 了 大 量 的 精力 在 清华 大 学 、 北 京 大 学 以 及 一 些 在 线 教育 平台 
分 享 他 对 计算 广告 的 深刻 理解 ， 影 响 了 不 少 人 ， 我 过 去 和 现在 的 团队 都 有 他 的 粉 
丝 、 他 的 学 生 。 现 在 刘 鹏 又 把 他 对 计算 广告 的 深刻 理解 集结 成 书 ， 能 影响 到 更 多 的 
Ao AXE RATES ! 








张 小 沛 ( @Joyce 在 路 上 ) ， 宜 信 cT0， 前 Hulu 全 球 副 总 裁 

计算 广告 学 纷繁 复杂 ， 刘 鹏 以 一 个 科学 的 实践 家 的 态度 抽 丝 剥 草 ， 全 面 、 系 统 
地 前 述 了 其 技术 架构 与 产品 生态 ， 为 入 门 者 普及 了 概念 ， 为 从 业者 开阔 了 眼界 。 

一 一 罗 征 ， 腾讯 广 点 通 总 经 理 

互联 网 广告 在 近 十 余年 里 一 直 保 持 着 爆炸 式 的 发 展 ， 支 撑 着 谷歌 、 脸 书 、 阿 
里 、 百 度 等 数 个 百 亿 、 干 亿 级 互联 网 公司 。 或 许 其 发 展 过 于 迅猛 ， 或 许 其 涉及 领域 
过 于 宽泛 ， 以 至 于 近 几 年 来 一 直 没 有 一 本 优秀 的 书 能 够 系统 、 全 面 地 对 互联 网 广告 
加 以 介绍 。 这 本 书 把 这 件 早 就 应 该 有 人 去 做 的 事情 漂亮 地 完成 了 。 从 业务 模式 到 技 
术 架 构 ， 从 算法 模型 到 工程 实现 ， 从 理论 基础 到 实现 细节 ， 从 历史 背景 到 最 新 动 


态 ， 这 本 书 都 做 了 翔实 、 系 统 的 讲解 。 相 信 对 于 每 一 位 置身 于 互联 网 广告 业 的 朋 
友 ， 不 论 其 在 这 纷繁 复杂 的 行业 里 承担 什么 样 角色 ， 这 本 书 真 值得 一 读 。 


一 一 顾 大 伟 ( @ 小 米 大 伟 ) ， 小 米 广告 负责 人 
很 高 兴 看 到 刘 觅 博士 把 自己 在 互联 网 广告 领域 的 多 年 经 验 和 智慧 整理 成 书 ， 其 


中 既 有 他 对 商业 产品 的 理解 ， 也 有 算法 和 工程 实现 的 总 结 。 本 书 不 仅 第 一 次 全 面 刁 
理 了 互联 网 广告 产品 形态 ， 针 对 每 个 产品 描述 了 相应 的 核心 算法 和 系统 实现 ， 而 且 
全 面 摘 述 了 以 媒体 和 广告 主 为 核心 的 生态 圈 ， 以 及 近 术 如 何 一 步 步 促 使 生态 圈 演 
化 ， 不 断 创 造 出 更 大 的 两 业 价值 。 对 于 互联 网 广告 从 业者 来 说 ， 相 信 读 后 一 定 获 益 
RZ. 
一 一 机 志峰 ( @ 贾 志峰 Michael )， 汽 车 之 家 技术 副 忆 坊 
来 自 互 联网 创业 者 
如 果 你 正 从 事 或 准备 进入 互联 网 广告 行业 ， 本 书 应 该 是 你 的 职业 生涯 中 必 不 可 
少 的 读物 之 一 。 无 论 在 中 国 或 是 放眼 世界 ， 作 者 以 更 深 、 更 广 的 视角 向 读者 展示 了 
当今 互联 网 行业 的 市 场 与 技术 。 在 享受 互联 网 大 数据 带 来 乐趣 的 同时 ， 书 中 介绍 的 
中 西 市 场 案例 将 助力 中 国 互联 网 从 业者 ( 包括 产品 技术 人 员 ) 开拓 创新 思维 。 本 书 
为 推动 中 国 互 耿 网 友 展 赋予 了 更 重要 的 意义 。 
— —j5j88 ( @=J28AdMaster ) ，AdMaster 创 始 人 、CEO 
今天 ， 大 数据 沪 潮 正在 席卷 全 球 。 数 字 拉 术 正 在 改变 我 们 的 生活 方式 ， 同 样 也 
在 驱动 着 商业 、 襄 销 和 广告 业 的 未 来 。 营 销 不 再 只 是 关于 策略 、 创 意 和 idea 的 ,更 
和 技术 的 友 展 紧 紧 地 捆绑 在 一 起 。 进 入 2815 年 后 ， 我 们 看 到 全 行业 正在 迎接 大 数据 
的 风口 ， 从 数据 的 沉积 分 析 和 管理 到 数据 的 真正 打通 ， 这 是 一 场 时 代 的 演进 。 刘 鹏 
博士 的 这 本 书 正 是 对 这 个 变 间 时 代言 销 近 术 变化 的 实录 ， 他 对 最 新 数字 广告 技术 方 
方面 面 的 精 到 齐 析 ， 不 仅 是 对 广告 知识 体系 的 实时 更 新 ， 更 是 对 未 来 新 的 数字 告 销 
体系 架构 的 有 荔 探 索 。 希 望 今天 我 们 在 勇于 探索 和 开拓 的 也 正 是 未 来 被 写 进 历 史 的 
故事 。 
一 一 吴 明 辉 ， 秒 针 系统 创始 人 、 和 董事 长 兼 cEO 
随 着 互联 网 的 高 速 增长 ， 广 告 开始 往 精细 化 发 展 ， 如 何在 有 限 的 资源 里 获得 最 
大 化 的 广告 综合 收益 是 一 个 非常 复杂 、 重 要 且 有 趣 的 问题 ， 这 也 是 计算 广告 研究 的 


方向 。 刘 觅 作为 这 个 方向 的 专家 ， 在 本 书 中 从 计算 广告 问题 的 提出 开始 ， 介 绍 了 计 
算 广 告 的 产品 形态 以 及 关键 技 术 ， 非 常 适合 互联 网 广告 的 从 业者 系统 性 地 了 解 计算 
广告 领域 。 
AA ( @ 周 霖 -KCN ) ， 搜 易 贷 联 合 创始 人 ， 前 搜狐 高 级 副 总 裁 
这 本 书 逻 辑 清 晰 ， 非 常 贴近 实战 ， 值 得 网 络 广告 从 业 人 员 仔 细 阅 读 与 思考 。 无 
论 是 媒体 、 广 告 代理 还 是 广告 主 ， 谁 能 更 好 地 获取 数据 、 理 解数 据 、 应 用 数据 ， 谁 
束 能 在 日 益 激 烈 的 市 场 竞争 中 脱 突 而 出 。 
一 一 赵 士 路 ( @ 赵 士 路 ) ，WiseMedia 创 始 人 、CEO 
互联 网 和 移动 互联 网 广告 生态 圈 正 在 发 生 翻 天 宪 地 的 变化 ， 广告 形式 、 产 品 形 
态 、 市 场 格局 及 产业 链 模式 不 断 推 陈 出 新 ， 让 人 目不暇接 。 同 时 ， 基 于 营销 大 数据 
的 计算 广告 技术 也 日 葵 成 束 。 划 鹏 博士 的 这 本 书 将 两 者 有 机 结合， 既 能 帮助 从 业 人 
员 了 解 互 联网 广告 全 狐 及 流量 变现 的 现状 ， 也 能 帮助 技术 人 员 掌 握 计算 广告 的 核心 
技术 ， 是 一 本 兼顾 商业 产品 逻辑 和 技术 实践 的 难得 一 见 的 佳作 。 
一 一 唐 健 ， 智 云 众 创始 人 、CE0 
互联 网 广告 是 一 个 干 亿 级 的 市 场 ， 如 果 把 互联 网 比 作 一 辆 车 的 话 ， 互 联网 广告 
融 是 汽油 ， 因 为 大 多 数 网 站 都 是 依靠 广告 僵 利 。 划 鹏 博士 的 这 本 书 涉 及 大 量 的 基础 
类 识 、 概 念 和 商业 模式 ， 是 目前 此 领域 比较 全 面 的 一 本 广告 扩 术 著作 。 书 的 内 容 深 
入 浅 出 ， 讲 述 了 搜索 广告 、 广 告 交易 平台 、 广 告 基 本 算法 以 及 开源 系统 等 重要 概 
念 ， 也 介绍 了 不 少 相关 广告 技术 公司 以 及 他 们 在 互联 网 广告 这 个 产业 链 上 的 各 种 典 
型 产品 ， 非 常 适 合 从 业 人 员 以 及 有 兴趣 进入 这 一 阳光 产业 的 同学 学 习 。 
一 一 唐 朝 晖 ( @ 唐 朝晖 _ adSage ) ， 义 德 思 奇 创始 人 、CEO 
过 去 5 年 是 移动 互联 网 发 展 最 快 的 时 期 ， 开 发 者 创造 出 如 此 多 的 应 用 和 内 容 ， 用 
户 行为 习惯 和 数据 积累 此 生 如 此 惊人 变化 。 在 此 过 程 中 ， 在 线 广告 作为 最 主要 的 变 
现形 式 ， 逐 渐 成 为 广大 从 业 人 员 必 须 掌握 的 知识 和 技术 。 然 而 ， 由 于 此 领域 学 习 门 





监 较 高 ， 对 于 很 多 从 业 人 员 来 说 迷雾 重重 。 大 部 分 相关 文章 只 是 对 于 广告 相关 一 些 
术语 进行 了 罗列 或 介绍 ， 无 法 让 大 家 “ 知 其 然而 知 其 所 以 然 ”。 这 本 书 的 出 版 将 弥 
补 这 一 空白 ， 它 系统 性 地 介绍 在 线 广告 的 发 展 历 史 和 逻辑 ， 以 及 沅 行 的 程序 化 购买 
天 键 技术 与 算法 。 更 为 可 贵 的 是 ， 刘 鹏 在 本 书 中 融入 了 自己 多 年 对 于 计算 广告 领域 
的 理解 和 经 验 ， 使 得 整 本 书 的 思路 和 编排 极为 流畅 。 本 书 既 适合 想 了 解 此 领域 的 初 
学 者 或 业务 人 员 泛 读 ， 也 适合 专家 以 及 产品 人 员 对 特定 的 知识 点 精读 。 本 书 将 成 为 
广大 互联 网 从 业 人 员 必 备 的 读物 ， 特 此 重点 推荐 给 大 家 。 
—— ERIM (GEESIE TalkingData) ，TalkingData 创 始 人 、CEO 
来 自 媒体 与 行业 专家 
本 质 上 讲 ， 互 联网 经 济 与 广告 经 济 都 属于 信息 经 济 的 具体 技术 形态 或 产业 形 
态 ， 核 心 要 素 是 数据 ， 经 济 学 特征 则 是 “所 有 能 够 传播 信息 的 商品 ， 其 售 价 都 会 趋 
向 其 边际 成 本 ”。 因此， 确定 数据 商业 化 与 广告 产品 化 之 间 转 损 的 逻辑 、 方 法 和 路 
径 极为 重要 ， 计 算 广告 恰恰 是 这 样 一 种 经 过 多 年 实践 的 有 效 体系 。 划 鹏 先生 所 闭 的 
这 本 书 对 相关 的 扩 术 、 创 新 与 商业 作 了 极 好 的 刻画 、 杭 理 与 论述 。 
一 一 马 旗 戟 ( @ 马 旗 戟 ) ， 原 尼尔森 局 级 副 总 裁 
这 本 书 于 我 而 言 ， 是 打开 了 一 扇 窗 ， 让 我 看 见 了 在 巨大 的 互联 网 广告 产业 后 面 
强 含 的 数学 模型 和 算法 基础 。 计 算 广 告 学 中 缠 含 的 各 种 方法 让 我 想到 了 省 理 方法 论 
中 很 著名 的 一 句 话 : "If you can’ t measure it,you can’ t manage 
it!” 量 化 的 万 法 使 得 计算 广告 学 成 为 计算 机 科学 与 工程 的 一 个 新 新 和 重要 的 方向 。 
非常 感谢 作者 的 知识 分 享 。 
一 一 陈 怀 临 ( @ 湾 区 评论 ) ， 弯 曲 评论 创始 人 
我 有 两 个 身份 ， 既 是 从 ”28 世纪 开始 工作 的 广告 主 ， 同 时 又 是 大 学 老师 ， 但 面 对 
的 却 是 一 样 的 问题 和 和 困惑。 营销 方法 尤其 是 广告 形式 推陈出新 ， 众 多 科技 层 出 不 
穷 ， 受 限于 自身 的 学 问 背 景 ， 不 可 能 全 部 都 了 解 。 所 以 有 拜读 本 书 内 容 的 机 会 我 特 


别 欣 喜 ， 终 于 有 由 业内 专家 执笔 且 技 术 含 量 特别 高 、 非 常 实用 的 书 了 。 广 告 主 可 以 
从 中 了 解 不 同 的 展现 方式 ， 利 用 书 中 的 广告 主 在 线 营 销 决 策 过 程 择 善 而 为 。 媒 体 也 
可 以 凭借 类 似 的 广告 变现 决策 ， 揭 示 未 来 的 友 展 方向 。 专 业 人 员 可 以 进一步 了 解 育 
后 的 技术 ， 找 出 最 有 针对 性 的 广告 投放 ， 提 升 推广 成 果 。 因 此 ， 我 非 单 推崇 本 书 的 
实用 价值 及 参考 价值 。 
一 一 杨 仕 名 (ARE) ， 香 港大 学 SPACE 中 国 商 业 学 院 副 总 监 ， 营 销 与 传媒 管 
理 中 心 主任 
广告 市 来 的 后 向 变现 是 互联 网 经 济 中 核心 的 变现 模式 之 一 ， 也 是 互联 网 商业 模 
式 的 重要 根基 ， 而 本 书 对 这 一 领域 作 了 一 次 全 面 的 总 结 。 我 们 希望 互联 网 企业 、 广 
告 服务 和 技术 公司 ， 以 及 艾 碧 这 样 的 数据 服务 公司 ， 以 本 书 的 出 版 为 契机 ， 认 真 探 
讨 互 联网 两 业 模 式 上 的 分 工 协作 ， 推动 行业 的 变 草 与 发 展 。 
一 一 杨 伟 庆 ( @ 杨 伟 庆 ) ， 艾 瑞 容 询 总 裁 
世界 上 有 一 种 沟通 是 付费 的 ， 这 融 是 广告 的 本 质 。 然 而 ， 近 几 年 互联 网 改变 了 
整个 广告 生态 的 格局 ， 目 前 世界 上 最 叱 号 风云 的 互联 网 公司 几乎 都 依赖 广告 。 刘 鹏 
博士 的 这 本 书 系统 性 地 介绍 了 这 种 深层 次 的 变化 ， 以 及 整个 产业 链 进 友 出 的 各 种 近 
术 手 段 与 学 问 。 此 书 由 浅 入 深 系 统 地 介绍 了 几乎 每 个 互联 网 广告 的 生态 位 置 以 及 育 
后 运作 的 机 理 ， 是 我 目前 见 过 国内 最 系统 的 介绍 计算 广告 的 著作 。 此 书 对 互联 网 、 
媒体 、 广 告 公 司 、 市 场 育 销 人 士 ， 甚 至 消费 者 都 是 一 本 了 解 互 联网 广告 的 佳作 。 
一 一 张 迪 ( @ 广 告 技术 流 adexchanger ) ，Adexchanger.cn 创 始 人 
有 了 互联 网 才 有 了 计算 广告 学 : 计算 广告 学 把 传统 的 无 法 定向 投放 和 无 法 度量 
的 广告 变 得 可 以 定向 投放 和 可 以 量化 度量 效果 。 刘 觅 博士 在 工作 之 余 ， 把 计算 广告 
学 的 系统 性 知识 和 多 年 实战 经 验 思 结 成 书 ， 对 从 事 计 算 广 告 的 工程 师 和 想 了 解 计 算 
广告 的 工程 师 都 非常 有 帮助 。 
一 一 张 栋 ( @ 张 栋 _ 机 器 学 习 ) ， 前 Google 研 究 员 


对 计算 广告 扩 术 和 丙 务 人 才 的 需求 近 两 年 迅速 高 涨 ， 但 计算 广告 是 一 个 新 兴 交 
义学 科 ， 一 和 直 缺 之 全 面 系统 的 专 着 。 这 本 书 全 面 介 绍 了 这 一 领域 的 商业 背景 知识 、 
业务 需求 和 详细 的 扩 术 实现 思路 。 本 书 一 个 重要 特色 是 将 该 领域 的 商业 挑战 与 技术 
的 选择 、 应 用 、 实 现 进 行 了 融 汇 中 西 的 系统 化 介绍 ， 让 不 同 知识 背景 的 读者 都 能 从 
中 获得 认识 提升 。 此 外 ， 本 书 对 于 整个 计算 广告 拷 术 知识 体系 的 梳理 全 面 、 准 确 ， 
寺 括 了 从 业 人 士 和 学 术 研 究 需 要 关注 和 了 解 的 主要 知识 操 ， 对 于 已 有 一 定 基础 和 实 
践 经 验 的 读者 也 能 从 中 温 故 知 新 和 查 焉 补缺。 此 书 的 出 版 对 于 促进 中 国 相关 行业 人 
才 池 的 增长 大 有 神 益 。 

一 一 范 秋 华 ( @RTBChina ) ，RTBChina 创 始 人 

互联 互通 正 领跑 ， 眼 球 经 济 网 民 包 。 创 收 多 多 靠 广 告 ， 变 现 书籍 好 难 找 。 计 算 

告 学 走俏 ， 甘 年 遍 然 成 林 悄 。 理 论 实践 兼顾 到 ， 刘 鹏 此 书 及 时 抛 。 入 门 登 香 先 介 
绍 ， 市场 规 模 大 和 蛋糕。 产品 技术 两 面 刀 ， 块 块 切 尝 大 与 小 。 搜 索 推广 竞价 搞 ， 合约 
展现 包 推销 。 程 序 交易 争 分 秒 ， 移 动 平台 涩 新 招 。 信 息 流 起 人 社交 ， 原 生 广 告 置 混 
消 。 探 索 利 用 平衡 高 ， 点 击 建 模 测验 校 。 育 景 逻 辑 打 夯 牢 ， 核 心 扩 术 寅 其 奥 。 照 萌 
卢 可 画 出 标 ， 立 竿 见 影 编 码 跑 。 十 载 面壁 勤 思考 ， 刘 鹏 功 成 友 大 招 。 油 翁 多 年 练 广 
告 ， 情不自禁 拇指 挑 ! 





洪涛 (@zhazhaba )， 打 油 尘 人 ， 前 百度 高 级 科学 家 
本 书 由 [ePUBw.COM| 整理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
电子 书 下 载 ! ||! 


序 一 


2669 年 11 月 ， 我 在 香港 参加 CIKM' 69， 听 Andrei Broder 等 几 位 学 者 讲 了 一 个 
导 学 课 
耳目 一 新 ， 竟 得 在 我 们 的 大 学 中 应 该 有 这 样 一 门 课 。 

回来 后 了 解 了 一 下 周围 青年 教师 的 情况 ， 没 有 友 现 能 够 开 这 种 课 的 人 。 后 来 ， 
好 像 首 先是 在 微 情 上 ， 知 道 了 刘 觅 是 这 方面 的 专家 。 一 联系 ， 果 然 如 此 。 与 其 探讨 
在 北大 开 一 次 这 种 课 的 可 能 性 ， 他 欣然 应 人 多 。 时 间 定 在 2613 年 夏天 ， 我 安排 实验 宇 
的 青年 教师 彭 波 做 助教 ， 目 的 乙 一 ， 融 是 硕 望 通过 助教 工作 学 会 计算 广告 这 一 套 粘 
识 ， 然 后 独立 在 北大 开 出 课 来 。 

旭 鹏 的 课 进行 得 很 顺利 ， 彭 波 每 次 都 参加 ， 我 也 去 听 过 一 次 。2614 年 秋 ， 彰 ; 
勇敢 地 开 出 课 来 了 。 课 程 结束 后 我 问 他 感觉 怎么 样 ， 他 说 内 容 太 多， 把 握 得 还 不 
好 ， 而 且 没 有 教材 ， 对 老师 学 生 都 是 个 困难 。 

其 实 ， 最 初 我 请 刘 觅 来 上 课 的 时 候 融 谈 到 过 教材 的 问题 。 他 答应 考虑 ， 但 因为 
他 在 公司 里 的 工作 很 忙 ， 所 以 需要 比较 长 的 时 | 间 。 但 他 没有 芯 记 ! 两 年 多 过 去 了 , 
一 天 他 给 我 友 邮 件 襄 书稿 完成 了 ， 和 希望 我 能 为 他 的 书写 个 序 ， 令 我 十 分 欣喜 。 

这 本 书 不 厚 ， 但 比较 全 面 地 履 盖 了 基于 互联 网 服务 的 广告 的 市 场 育 景 、 产 品 逻 
辑 与 关键 技术 ， 给 出 了 一 个 宽阔 的 视野 。 作 者 基于 多 年 的 从 业经 验 ， 从 市 场 行为 出 
发 演绎 对 天 品 与 拉 术 的 需求 ， 而 不 是 束 技 术 讲 技术 ， 提 高 了 本 书 的 立意 ， 因 而 也 适 
合 更 广泛 的 读者 群 ， 包括 计算 机 相关 专业 的 研究 生 。 应 该 说 ， 这 本 书 的 风格 不 同 于 
通常 的 教材 ， 如 果 和 直接 用 于 教学 ， 对 教师 的 要 求 会 比较 高 ， 但 不 失 为 一 本 优秀 的 教 
学 参考 书 。 尤 其 是 在 其 内 容 铺陈 中 展现 出 来 的 数据 加 工 、 利 用 与 交易 的 思维 主线 ， 





Introduction to Computational Advertising ( 计算 广告 导论 ) ， 


能 让 计算 机 专业 的 学 生 看 到 活生生 的 技术 需求 。 而 在 互联 网 广告 的 背景 下 对 数据 的 
充分 强调 ， 让 读者 对 大 数据 的 意义 有 了 一 种 更 具体 的 体会 。 
国内 大 学 中 的 计算 机 专业 教育 ( 尤其 是 高 年 级 和 研究 生 的 ) 现在 困难 和 问题 还 
比较 多 。 比 较 明显 的 一 点 就 是 ， 教 学 内 容 的 时 代 感 不 够 强 。 这 一 点 在 广度 和 深度 上 
都 有 反应 。 跟 不 上 业界 的 发 展 ， 一 些 重要 的 课程 不 能 及 时 有 效 地 开 ， 我 认为 “计算 
告 ”就 是 其 中 之 一 。 这 种 情况 和 蓬勃 发展 的 信息 技术 和 产业 是 不 相 适 应 的 。 因 
此 ， 我 们 欢迎 业界 中 对 技术 和 产业 有 比较 透彻 理解 且 对 教育 有 情怀 的 专家 参与 到 大 
学 教学 活动 中 来 ， 让 我 们 的 学 生 学 到 更 多 的 真 本 事 ， 适 应 产业 发 展 的 需要 。 刘 胸 
2613 年 在 北大 首开 “计算 广告 ”课程 就 是 这 样 一 种 表率 ， 他 这 本 书 的 面世 也 是 这 个 
意义 上 的 一 种 奉献 ， 当 予 祝贺 。 
李晓明 ， 北 京 大 学 计算 机 系 教授 
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所 有 互联 网 公司 都 对 广告 变现 的 地 位 和 价值 并 不 陌生 。 在 每 一 个 用 户 产 品 成 长 
的 各 个 阶段 ,除了 认真 解决 需求 痛 点 、 优 化 用 尸体 验 ， 也 应 该 不 断 地 对 流量 和 数据 
的 价值 进行 评估 ， 并 积极 探讨 商业 变现 的 战略 与 产品 。 而 在 各 种 商业 化 产品 当中 ， 
以 计算 为 导向 的 广告 变现 无 疑 是 最 为 重要 的 。 

在 产品 选 型 、 开 发 和 运营 的 初期 阶段 ， 如 果 能 对 产品 未 来 产生 的 数据 和 流量 价 
值 有 正确 的 评估 ， 并 了 解 如 何 利用 广告 产品 将 这 些 资 产 变 现 ， 对 于 判断 该 产品 的 成 
长 空间 和 商业 价值 非常 重要 。 另 外 ， 早 期 的 产品 推广 会 用 到 许多 广告 营销 产品 ,而 
对 于 计算 广告 原理 的 深入 了 解 也 将 有 利于 高 效 地 做 好 营销 。 

当 产 品 得 到 市 场 认 可 ， 获 得 了 一 定 的 用 户 规 模 以 后 ， 积 极 制定 系统 性 的 商业 化 
战略 ， 用 合理 的 变现 方式 获得 现金 流 ， 从 而 支撑 产品 的 快速 友 展 ， 则 是 每 一 个 互联 
网 公司 成 长 过 程 中 必须 经 历 的 天 键 步 又。 如 果 能 洞悉 互联 网 广告 市 场 的 产品 技术 全 
狐 ， 无 疑 对 此 阶段 的 决策 大 有 帮助 。 

虽然 广告 技术 在 互联 网 行业 至 关 重 要 ， 长 期 以 来 ， 却 只 有 一 些 只 鳞片 爪 的 专题 
文章 ， 对 业界 系统 架构 与 算法 的 介绍 ， 从 世界 范围 来 看 ， 都 非常 缺乏 系统 性 的 整理 
和 总结 。 这 一 方面 是 由 于 广告 市 场 友 展 迅速 ， 从 搜索 竞价 到 程序 化 交易 ， 再 到 移动 
互联 网 下 的 原生 广告 趋势 ， 日 新 月 异 的 产品 进化 速度 让 整个 工业 界 来 不 及 停 下 脚步 
做 小 结 ; 另 一 方面 是 广告 产品 的 内 在 逻辑 不 像 用 尸 产 品 那样 直 党 ， 要 进行 全 面 适 彻 
的 整理 和 剖析 ， 需 要 兼 有 丰富 的 实践 经 验 和 相当 的 理论 抽象 能 力 。 也 正 由 于 缺乏 系 
统 性 的 资料 ， 互 联网 工业 界 在 这 方面 的 人 才 培 养 也 不 够 系统 ， 导 致 在 广告 产品 技术 
这 样 一 个 重要 的 领域 ， 人 才 一 直 是 短缺 的 。 


划 鹏 博士 曾经 与 我 在 搜狐 集团 有 过 一 段 时 间 的 同事 经 历 。 从 简短 的 几 次 接触 
中 ， 我 知道 他 在 对 媒体 的 流量 变现 和 需求 方 广告 产品 方面 都 有 丰富 的 实践 经 验 ， 并 
曾 在 Yahoo! ”Labs 对 计算 广告 领域 进行 过 系统 性 的 研究 ， 是 对 这 一 领域 做 全 面 总 结 
的 合适 人 选 。 如 今 ， 终 于 看 到 他 不 音 时 间 和 精力 ， 将 计算 广告 领域 的 产品 技术 和 商 
业 逻 辑 整 理 成 书 ， 这 将 是 令 整 个 互联 网 工业 界 受益 之 举 。 

市 着 期 待 读 完 本 书 ， 我 的 第 一 印象 是 ， 其 内 容 全 面 而 富有 条 理 : 本 书 既 有 计算 
广告 全 线 产品 的 介绍 ， 又 有 对 其 商业 逻辑 和 原理 的 透彻 解剖 ， 还 有 对 应 的 技术 架构 
和 关键 算法 的 深入 讨论 。 另 外 ， 除 了 受众 定向 、 氮 击 率 预 估 、 实 时 竞价 等 热点 问题 
的 讨论 ， 还 有 详尽 的 周边 产品 和 技术 的 介绍 。 相 信 认 真 读 完 此 书 的 读者 ， 一 方面 会 
对 整个 广告 生态 的 全 貌 有 全 局 性 的 了 解 ， 不 会 只 见 树木 ， 不 见 森林 ; 另 一 方面 又 可 
以 按 图 索 戏 ， 再 页 到 各 种 实际 问题 时 在 本 书 中 找到 具体 思路 甚至 解决 方案 。 

当然 ， 本 书 的 另外 一 项 重要 意义 就 是 ， 它 是 计算 广告 领域 第 一 本 系统 性 的 正式 
出 版 物 。 非 常 希 望 以 此 为 契机 ， 从 合理 配置 资源 的 角度 出 发 ， 整 个 互联 网 领域 能 够 
在 流量 和 数据 变现 上 逐渐 走向 标准 化 与 分 工 协作 。 这 也 许 会 从 一 个 侧面 促进 中 国 互 
联网 企业 摆脱 恶性 竞争 的 内 徒 困境 ， 走 向 合作 共 赢 之 路 。 

最 后 ， 祝 贺 此 书 的 出 版 ， 并 希望 它 能 够 给 你 些许 启示 . 

王 小 川 ， 搜 狗 公司 CEO 
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广告 营销 处 在 历史 转折 点 ， 技 术 对 传媒 的 驱动 和 融合 趋势 让 数字 营销 充满 变 
数 ， 这 变化 烦 有 乐趣 却 又 让 和 人 不安。 原因 很 简单 ， 一 方面 ， 技 术 驱 动 下 的 数字 生态 
上 百花齐放 ， 程 序 化 齐 销 渐 入 佳境 ; 另 一 方面 ， 数 字 世 界 各 式 各 样 的 三 告 技术 概念 让 
市 场 营 销 者 感到 困惑 。 

不 可 否认 ， 营 销 行 业 有 专业 的 技术 型 人 才 和 和 数据 科学 家 帮助 我 们 实践 和 创新 这 
些 技 术 ， 似 乎 有 了 需要 的 一 切 。 可 想象 一 下 ， 某 个 下 午时 光 ， 当 和 我 们 的 客 尸 坐 在 
一 起 ， 他 可 能 会 问 起 这 样 的 问题 : 未 来 你 们 能 帮 我 们 做 什么 ? 

如 果 说 技术 代表 营销 的 未 来 ， 那 么 技术 到 底 是 什么 呢 ? 技术 为 什么 存在 ? 技术 
可 以 帮助 做 些 什 么 ?我 常 想 ， 要 拨 开 这 些 技术 迷雾 ， 营 销 人 具备 的 知识 背景 应 该 能 
跨越 扩 林 理解 的 盲点 ， 能 洞察 到 真正 天 键 且 清晰 的 归 因 ， 把 这 些 问 题 的 答案 清晰 和 
简单 地 传递 给 我 们 的 客户 。 所 以 我 期 竺 行业 中 有 人 能 把 广告 技术 的 真实 情况 和 作用 
讲 出 来 ， 无 论 是 DSP. DMP ”或 是 RTB 这 些 商 业 产 品 概念 ， 还 是 “预测 模型 ”“ 机 器 
学 习 ” 和 “人 和 群 定向 ”之 类 的 技术 名 词 。 

市 者 这 个 期 待 ， 我 阅读 了 刘 鹏 博士 这 本 广告 技术 专著。 我 想 癌 ， 我 的 这 些 疑 惑 
在 阅读 这 本 书 的 过 程 中 都 得 到 了 解答 或 者 找到 了 线索 。 

划 鹏 博士 在 互联 网 领域 ， 特 别 是 广告 变现 产品 领域 有 痢 非 钊 丰富 的 从 业经 验 。 
从 雅虎 全 球 研 友 中 心 到 微软 研究 阮 ， 再 到 今天 作为 366 首 席 商 业 架 构 师 ， 他 既 主持 过 
需求 方 营 销 产 品 和 供给 方 变现 产品 的 设计 开 友 ， 又 兼 有 从 产品 到 系统 和 算法 的 全 面 
把 握 能 力 ， 而 这 些 经 验 都 成 了 本 书 丰 齐 实 用 内 容 的 基础 。 

一 本 好 的 广告 书 不 会 大 谈 趋 势 ， 而 是 会 从 细节 观察 出 友 ， 探 类 商业 逻辑 ; 一 本 


好 的 技术 书 不 会 大 谈 常识 ， 而 是 剖析 实践 领域 的 真知 灼 见 。 刘 鹏 博士 编写 的 《计算 
广告 》 就 是 这 样 一 本 跨越 领域 、 兼 而 有 之 的 作品 。 

很 愿意 分 享 两 点 阅读 感受 。 第 一 是 繁 纷 复杂 的 数字 生态 和 技术 说 辞 ， 刘 鹏 对 此 
做 了 系统 的 梳理 和 介绍 ， 即 使 高 度 专业 的 产品 概念 、 逻 辑 及 算法 应 用 ， 非 技术 背景 
的 读者 也 能 对 这 些 概念 建立 统一 的 认识 。 第 二 是 概念 之 外 ， 书 中 列举 了 国际 国内 经 
典 的 广告 平台 产品 ， 分 析 基 形态、 技术、 策略， 描绘 了 商业 和 产品 之 间 相 互 关 联 、 
相互 促进 的 有 趣 演进 。 这 些 来 自 于 作者 多 年 从 业 实 践 和 积累 并 给 营销 人 带 来 “互联 
网 +” 的 思考 角度 更 难能可贵 。 而 书 中 列举 了 很 多 详实 的 数据 和 图 例 ， 反 映 了 刘 鹏 博 
士 对 技术 和 治学 的 严肃 态度 。 

如 果 你 需要 了 解 在 线 广告 的 产品 和 技术 ， 就 应 该 马上 行动 ， 打 开 这 本 书 ， 努 力 
去 学 习 和 探索 。 

愿 每 位 从 事 数字 广告 事业 的 营销 人 ， 都 能 读 到 此 书 。 

李 桂 芬 ， 安 吉 斯 媒体 集团 大 中 华 区 首席 执行 官 
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互联 网 的 快速 友 展 改变 了 整个 世界 。 从 门户 网 站 到 搜索 引擎 、 从 社交 网 络 到 电 
子 商务 ， 从 免费 Mi -Fi 到 应 用 市 场 ， 层 出 不 穷 的 在 线 服 务 不 仅 方 便 了 人 们 的 生活 ， 甚 
至 颠覆 了 原 有 的 产业 。 而 且 更 为 神奇 的 是 ， 这些 服务 大 多 是 免费 的 。 在 今天 ，“ 互 
联网 思维 ”这 个 名 词 被 越 来 越 多 互联 网 行业 内 外 的 人 们 追捧 和 旦 惧 ， 而 其 中 很 多 人 
的 困惑 都 在 于 : 这 么 多 免费 的 服务 是 如 何 获得 收入 ， 乃 全 赚 得 盆 僵 钵 满 呢 ? 实际 
上 ， 如 果 把 多 样 的 互联 网 产品 或 服务 看 成 各 式 硬币 的 正面 ， 那 么 我 们 会 友 现 ， 其 中 
许多 硬币 的 背面 都 有 着 一 样 的 图 案 ， 这 束 是 以 广告 为 核心 的 后 向 变现 体系 。 正 面 的 
免费 服务 是 为 了 获得 流量 和 数据 ， 而 背面 的 广告 业务 则 是 将 这 些 流 量 和 数据 变 成 金 
钱 ， 这 丈 是 互联 网 最 关键 的 思维 模式 之 一 。 





在 能 够 获得 充分 的 流量 或 高 价值 数据 后 ， 我 们 认为 ， 所 有 能 够 传播 信息 的 商 
品 ， 其 售 价 都 会 趋向 其 边际 成 本 。 这 样 的 观点 对 许多 传统 行业 商业 模式 的 影响 是 深 
远 的 ， 也 是 我 们 认为 大 家 应 该 在 互联 网 时 代 深 入 了 解 广告 、 了 解 变现 产品 的 原因 。 
因此 ， 本 书 的 内 容 虽 然 以 介绍 互联 网 广告 的 产品 和 技术 为 核心 ， 但 并 不 是 想 让 大 家 


都 学 会 搭建 一 个 广告 系统 。 我 们 的 核心 目的 ， 是 让 读者 在 清晰 地 了 解 互 联网 广告 全 
够 的 基础 上 ， 在 遇 到 与 后 向 变现 相关 的 产品 问题 时 ， 能 够 以 合理 的 思维 逻辑 和 背景 
知识 来 应 对 。 实 际 上 ， 在 互联 网 时 代 ， 不 论 你 身 处 哪个 行业 ， 只 要 用 心 留意 ， 会 友 
现 这 类 问题 可 能 比 你 想象 得 更 为 党 见 ， 也 更 为 重要 。 对 其 中 最 重要 的 几 类 问题 ， 我 
们 来 看 看 下 面 几 个 具体 的 例子 。 

(1) 商业 模式 探索 。 例 如 ， 电影 是 一 种 边际 成 本 很 低 ， 同 时 信息 传播 量 又 很 大 
的 典型 商品 。 那 么 现在 电影 的 票 价 为 什么 这 么 高 ? 能 否 探索 一 种 售 价 很 低 ， 而 充分 
利用 其 信息 传播 能 力 的 电影 行业 发 行 模式 ， 获 得 更 高 的 经 济 效益 和 社会 效益 ? 

(2) 流量 变现 。 例 如 ， 互 联网 电视 厂商 除了 硬件 销售 的 回报 以 外 ， 还 可 以 获得 
一 部 分 用 户 流量 。 这 些 流量 的 性 质 和 价值 如 何 ， 应 该 以 什么 方式 变现 ? 

(3) 数据 变现 。 例 如 ， 室 内 导航 技术 是 近年 来 快速 友 展 的 新 型 互联 网 应 用 。 如 
果 以 同 用 尸 免费 的 万 式 运营 室内 导航 闫 品 ， 会 得 到 什么 有 价值 的 数据 人 资 产 ， 从 而 支 
返 相 应 的 后 向 变现 ， 又 应 该 采 用 哪 种 具体 的 商业 产品 来 文 撑 ? 

(4 ) 商业 产品 建设 和 运营 。 例 如 ， 团购 、 游 戏 联运 、 返 利 购 买 、 积 分 墙 这 些 推 
广 模式 与 一 般 的 展示 或 搜索 广告 有 什么 内 在 联系 ? 是 否 可 以 共用 某 些 产 品 和 技术 平 
a? 
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思考 是 不 够 的 ， 你 还 必须 对 当前 互联 网 流量 和 数据 变现 市 场 的 商业 逻辑 和 产品 现状 
有 相当 程度 的 了 解 ， 并 在 需要 具体 产品 实施 时 有 相应 的 方案 可 以 参考 和 选择 。 而 为 
读者 提供 这 方面 的 帮助 ， 正 是 本 书 希 望 能 做 到 的 。 

从 传统 的 视角 看 广告 ， 会 有 人 认为 互联 网 服务 中 的 广告 破坏 了 用 尸体 验 ， 这 实 
际 上 是 一 种 观念 上 的 误解 。 首 先 ， 互 联网 广告 不 再 像 线 下 广告 那样 ， 以 宣教 性 的 横 
IBAE, 而 是 以 各 种 目 动 决策 的 付费 信息 的 方式 存 人 在， 这 其 中 既 包括 传统 的 创意 形 
式 ， 也 包括 游戏 联运 、 团 购 、 返 利 、 原 生 广 告 等 更 加 契合 用 户 意 图 的 新 传播 形式 。 


虽然 ， 从 微观 上 看 ， 部 分 不 顾及 媒体 价值 、 盲 目 变 现 的 广告 产品 确实 人 存在 这 样 的 问 
题 ， 但 从 安 观 上 看 ， 恰 恰 是 因为 广告 这 一 后 癌变 现 模 式 的 存在 ， 互 联网 产品 的 整体 
用 户 体 验 才 达 到 了 前 所 未 有 的 高 度 。 在 传统 的 企业 中 ， 一 般 会 根据 产品 线 分 设 若干 
事业 部 ， 每 个 事业 部 在 研发 自己 产品 的 同时 还 要 对 营 收 和 利润 负责 。 而 在 互联 网 企 
业 或 者 按照 互联 网 方式 运营 的 企业 当中 ， 还 存在 另外 一 种 组 织 方 式 ， 即 面向 用 尸 的 
免费 产品 部 门 只 负责 优化 产品 体验 ， 不 对 营 收 负责 ， 而 专门 面向 客户 的 商业 产品 音 
门 通 过 广告 等 后 向 变现 方式 为 企业 创造 营 收 。 实 践 证 明 ， 在 这 样 的 组 织 方 式 下 ， 用 
户 产 品 部 门 往往 能 够 心 无 旁 鸽 ， 专 心 为 了 提高 用 户 体验 而 努力 。 因 此 ， 我 们 会 看 
到 ， 比 起 传统 软件 企业 ， 互 联网 企业 的 产品 在 把 握 用 户 需求 、 优 化 用 户 体 验方 面 往 
往 能 够 做 得 更 加 优秀 。 

因此 ， 在 互联 网 的 世界 里 ， 广告 不 骨 只 是 广告 公司 的 事 ， 而 是 每 一 个 互联 网 公 
司 都 要 关心 的 事 。 从 结果 来 看 ， 在 线 广告 实际 上 成 为 互联 网 最 重要 的 发动 机 。 从 营 
收 上 看 ， 它 支撑 着 互联 网 业务 的 大 半壁 江山 。 当 然 ， 广 告 的 概念 本 身 在 互联 网 业务 
中 也 已 经 发 生 了 脱胎 换 骨 的 变化 : 首先 ， 在 互联 网 广告 中 ， 服 务 于 中 小 商家 、 以 直 
接 销 售 为 目的 的 广告 取代 品牌 广告 成 为 主流 ， 这 也 创造 了 全 新 的 巨大 市 场 ; 其 次 ， 
它 的 关键 不 再 是 创意 、 策 略 等 人 工 服务 ， 而 是 以 数据 支撑 的 流量 规模 化 交易 为 典型 
特点 。 也 就 是 说 ， 机 器 和 算法 取代 了 人 员 与 服务 ， 成 为 在 线 广 告 最 鲜明 的 特色 。 可 
以 说 ， 互 联网 广告 的 灵魂 束 在 于 数据 与 计算 ， 因 此， 也 就 产生 了 “计算 广告 ”这 一 
名 词 以 及 后 面 复 杂 的 产品 与 技术 。 

计算 广告 这 个 课题 ， 逐 渐 成 形 于 以 Google AdWords 为 代表 的 竞价 广告 业务 产 
生 以 后 ， 并 且 在 展示 广告 进入 程序 化 交易 阶段 以 后 龟 加 成 融 。 而 将 其 整理 成 一 个 
的 研究 方向 ， 则 要 归功 于 时 任 Yahoo! 广告 首席 科学 家 和 的 Andrei Broder。 他 在 斯 
坦 福 开设 的 “Computational Advertising” 这 门 课 ， 第 一 次 全 面 而 系统 地 介绍 了 
在 线 广告 中 的 计算 挑战 以 及 工业 界 实用 的 算法 。 既 然 有 了 计算 广告 的 相关 课程 ， 为 


什么 还 要 再 整理 这 本 计算 广告 的 书籍 呢 ”首先 当然 是 因为 这 一 领域 变化 太 快 ， 
在 “计算 广告 ”这 个 词 诞 生 后 的 几 年 里 ， 它 的 内 涵 和 外 延 都 已 经 友 生 了 重大 的 变 
化 ， 而 且 这 几 年 的 变化 使 得 这 个 领域 逐渐 完备 起 来 。 因 此 ， 有 必要 在 此 时 对 当下 的 
计算 广告 领域 做 一 个 阶段 性 的 小 结 。 另 外 还 有 一 个 重要 原因 : 那 束 是 我 们 在 几 次 计 
算 广 告 的 教学 实践 中 友 现 ， 对 于 在 校 学 生 或 者 刚刚 接触 此 领域 的 朋友 们 来 说 ， 最 主 
要 的 理解 障碍 不 在 于 算法 和 技术 本 身 ， 而 在 于 广告 的 商业 逻辑 和 和 产品 目标 。 以 此 为 
出 友 点 ， 本 书 的 组 织 方式 将 以 广告 产品 为 核心 。 人 在 清楚 地 了 解 计 算 广 告 的 产品 逻辑 
与 商业 价值 的 基础 上 ， 我 们 再 来 有 针对 性 地 讨论 其 中 的 算法 和 架构 问题 。 因 此 ， 商 
业 逻 辑 驱 动 的 在 线 广告 产品 和 技术 的 升级 将 是 本 书 最 重要 的 一 条 主线 。 

另外 ， 本 书 还 有 一 条 潜在 的 主线 ， 即 数据 的 加 工 、 利 用 与 交易 。 熟 悉 了 计算 广 
告 业 务 和 产品 的 读者 会 有 认识 ， 广 告 业务 的 收益 只 能 来 自 于 三 个 方面 : 数据 、 流 量 
和 品牌 属性 。 其 中 后 两 点 是 媒体 的 专属 ， 而 大 量 的 广告 平台 在 做 的 事情 ， 主 要 就 是 
数据 的 加 工 与 利用 。 不 硅 张 地 说 ， 计 算 广 告 对 于 数据 利用 的 广度 和 深度 是 空前 的 , 
而 县 产业 的 各 环节 也 是 比较 完备 的 。 在 各 行 各 业 都 在 强调 大 数据 思维 与 方法 的 今 
天 ， 深 入 了 解 计算 广告 产品 与 拷 术 具有 特别 强 的 范本 意义 。 因 此 ， 本 书 在 内 容 组 织 
上 特别 强调 数据 这 条 线 这 ， 努 力 向 读者 解释 清楚 如 何在 广告 产品 进化 过 程 中 一 步 步 
地 更 有 效 地 利用 数据 。 

读者 对 象 

既然 在 线 广告 不 再 只 是 广告 公司 的 事 ， 那 么 需要 了 解 这 一 业务 及 其 背后 产品 技 
术 的 人 和 群 也 残 相当 广泛 了 。 我 们 希望 下 面 几 类 读者 可 以 从 本 书 中 找到 有 价值 的 内 
容 。 

(1) 互联 网 公司 商业 化 部 门 的 产品 、 技 术 和 运营 人 员 。 对 互联 网 公司 来 说 ， 商 
业 化 产品 中 最 重要 的 就 是 广告 产品 ， 不 过 我 们 发 现 ， 轿 于 各 公司 具体 的 产品 形态 ， 
仅仅 从 目 己 的 业务 中 全 狐 地 了 解 广 告 产 品 技术 并 不 容易 。 因 此 ， 本 书 最 主要 面向 的 


读者 丈 是 这 些 广 告 产品 相关 的 人 员 ， PETIA , TERM EIUS 
以 及 复杂 的 技术 产品 系列 有 整体 的 了 解 ， 避 免 只 见 树木 不 见 森 林 。 

(2) 对 个 性 化 系统 、 大 数据 变现 或 交易 有 兴趣 者 。 计 算 广 告 在 各 种 个 性 化 系统 
中 具有 典型 性 ， 又 因为 其 商业 逻辑 的 存在 而 相对 复杂 ; 此 外 ， 计 算 广 告 还 催生 了 对 
大 规模 数据 利用 和 变现 的 直接 市 场 。 因 此 ， 推 荐 等 个 性 化 系统 的 产品 技术 人 员 以 及 
大 数据 相关 的 产品 技术 人 员 都 非常 有 必要 通过 了 解 计算 广告 的 产品 和 技术 ， 对 个 性 
化 系统 架构 、 约 束 下 的 效果 优化 、 大 数据 变现 和 交易 等 诸多 问题 在 实际 工业 界 的 落 
地 有 一 定 的 理解 。 

( 3) 传统 企业 互联 网 化 进程 的 决策 者 。 传 统 企业 在 互联 网 化 的 过 程 中 需要 借鉴 
的 绝 不 仅 仪 是 利用 互联 网 的 技术 和 产品 ， 更 重要 的 是 按照 互联 网 企业 形成 的 高 效 运 
营 和 变现 模式 来 改造 传统 业务 。 从 这 个 意义 上 说 ， 互 联网 企业 以 广告 为 基础 的 后 向 
变现 体系 是 整个 互联 网 化 过 程 中 至 关 重 要 的 一 环 。 因 此 ， 在 这 样 的 传统 企业 中 , E 
联网 化 进程 的 决策 者 对 广告 的 原理 和 市 场 必须 有 一 定 程度 的 了 解 。 

(4) 传统 广告 业务 的 从 业者 。 传 统 广告 业务 与 互联 网 广告 业务 既 有 密切 的 联系 
义 存 在 着 巨大 的 差别 。 以 技术 为 导向 、 精 准 地 面向 受众 的 广告 策略 正 深刻 地 影响 这 
整个 广告 市 场 。 并 且 随 着 互联 网 广告 规模 的 迅速 扩大 ， 这 样 的 策略 越 来 越 为 广告 主 
接受 和 青睐 。 因 此 ， 传 统 广 告 业务 的 从 业者 必须 要 顺应 潮流 ， 理 解 和 运用 计算 广告 
的 方法 与 策略 ， 将 线 下 资源 与 线 上 资源 整合 起 来 ， 才 能 更 好 地 服务 于 广告 主 和 媒 
体 。 

(5) 互联 网 创业 者 。 我 们 接触 过 不 少 互联 网 行业 的 创业 者 ， 对 他 们 来 说 ， 找 到 
用 户 产 品 的 痛 点 并 漂亮 地 解决 问题 往往 并 不 是 十 分 困难 。 不 过 ， 一 个 企业 最 终 需 要 
的 是 利润 ， 而 许多 对 变现 逻辑 和 和 思考 方法 不 熟悉 的 创业 者 往往 面 对 产 品 得 到 的 流量 
和 数据 不 知 所 措 ， 而 商业 化 进程 的 缓慢 也 会 大 大 拖 慢 用 户 产 品 的 运营 进度 ， 甚 至 因 
此 错过 企业 的 黄金 故 展 机 会 。 从 这 个 意义 上 说 ， 了 和 解 一 些 流量 与 数据 变现 的 思路 无 


疑 会 对 创业 方向 的 选择 、 创 业 过 程 的 加 速 、 创 业 果 实 的 收获 都 有 巨大 的 帮助 。 

(6) 计算 机 相关 专业 研究 生 。 计 算 广告 的 人 才 在 互联 网 行业 相当 稀缺 ， 而 目前 
学 校对 这 样 与 工业 界 关系 密切 的 实际 问题 在 教育 上 是 有 些 脱节 的 。 我 们 整理 此 书 的 
一 个 重要 目的 是 希望 为 具有 一 定 的 计算 机 科学 基础 并 且 对 工业 界 实际 问题 有 兴趣 的 
同学 们 提供 一 次 指导 旅行 ， 让 他 们 对 思考 和 设计 商业 产品 、 运 用 技术 解决 产品 问题 
形成 正确 的 思考 方法 。 

内 容 组 织 

前 面 说 过 ， 我们 整理 本 书 ， 并 不 是 简单 地 为 了 介绍 计算 广告 的 产品 和 技术 ,更 
重要 的 目的 是 希望 提供 一 个 新 的 视角 ， 让 大 家 通过 了 解 广 告 变 现 的 内 在 逻辑 ， 进 而 
对 互联 网 时 代 的 用 户 产 品 如 何 将 体验 做 到 极致 、 将 变现 做 到 最 高 效 有 一 个 安 观 的 认 
识 。 在 我 们 看 来 ， 如 果 不 了 解 广告 变现 产品 和 市 场 ， 融 谈 不 上 真正 透彻 地 了 解 互联 
网 ， 也 一 定 会 在 用 户 产 品 的 设计 和 运营 上 有 诸多 党 肘 。 基 于 这 样 的 目的 ， 本 书 在 内 
容 上 组 织 成 三 个 部 分 。 

(1) 第 一 部 分 介绍 在 线 广告 领域 的 一 些 基 本 问题 和 背景 知识 。 昌 然 内 容 比 较 容 
易 理 解 ， 但 这 部 分 是 全 书 的 基础 ， 特 别 是 对 很 多 相 天 概念 和 术语 的 集中 介绍 ， 请 不 

(2) 第 二 部 分 主要 面向 产品 、 运 营 、 销 售 等 人 员 ， 以 及 互联 网 产品 的 宏观 决策 
者 ， 其 内 容重 点 在 于 介绍 计算 广告 的 市 场 结 构 、 交 易 模 式 和 主要 产品 。 这 部 分 内 
将 依 在 线 广告 产品 发 展 的 顺序 展开 ， 希望 能 帮助 大 家 理解 各 种 复杂 的 广告 产品 和 交 
易 机 制 产 生 的 内 在 规律 。 

(3) 第 三 部 分 主要 面向 系统 工程 师 、 算 法 工程 师 和 架构 师 。 与 前 一 部 分 的 广告 
产品 相对 应 ， 这 部 分 也 以 在 线 广告 产品 友 展 的 顺序 ， 重 点 阐释 实现 各 种 广告 产品 的 
天 键 技术 挑战 ， 并 提供 基础 的 解决 方案 。 

一 般 来 说 ， 对 于 那些 想 运 营 一 项 在 线 广告 业务 ， 或 者 想 了 解 如 何 用 在 线 广告 对 


} 
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用 尸 产 品 怎样 变现 的 读者 来 说 ， 可 以 重点 阅读 第 一 部 分 和 第 二 部 分 ， 并 且 对 其 中 的 
产品 与 商业 逻辑 要 深入 理解 ; 对 于 那些 重点 关注 工程 实现 和 收入 优化 的 读者 来 说 ， 
在 了 解 了 前 面 两 部 分 之 后 ， 还 要 化 一 些 精力 深入 阅读 第 三 部 分 ， 特 别 是 其 中 与 目 己 
关注 的 广告 产品 相关 的 技术 章节 。 计 算 广告 这 个 领域 的 复杂 性 在 于 ， 对 于 任何 一 项 
产品 或 技术 都 需要 放 在 相应 的 商业 背景 下 去 判断 其 合理 性 ; 而 想 要 了 解 商业 产品 上 
能 达到 的 目标 ， 还 需要 对 技术 的 现状 和 难点 有 相当 的 认识 。 因 此 ， 我 们 推荐 的 阅读 
方式 还 是 尽 可 能 地 通读 全 书 ， 对 其 中 确实 不 相关 或 者 知识 背景 上 无 法 理解 的 部 分 简 
单 跳 过 就 可 以 了 。 另 外 ， 除 第 16 章 外 ， 其 他 各 章 结束 后 我 们 都 准备 了 若干 开放 性 的 
延伸 思考 问题 。 这 些 问题 往往 并 没有 确定 的 标准 答案 ， 只 是 为 了 帮助 大 家 进一步 深 
入 思考 该 章 中 的 关键 或 有 趣 的 问题 。 

在 讨论 在 线 广告 市 场 的 产品 技术 过 程 中 ， 会 涉及 大 量 的 术语 和 专业 名 词 。 对 于 
对 变现 业务 不 太 熟 悉 的 读者 来 说 ， 这 些 术语 会 给 阅读 市 来 一 定 的 障碍 。 为 了 帮助 读 
者 检索 和 查找 术语 的 相关 内 容 ， 我们 在 附录 中 对 主要 术语 及 缩写 给 出 了 索引 ,以 方 
便 大 家 的 阅读 。 

由 于 篇 幅 限 制 ， 本 书 中 有 些 内 容 的 细节 或 背景 知识 无 法 全 面 展 开 ， 在 这 种 情形 
下 会 给 出 相应 的 参考 文献 。 但 是 由 于 本 书 并 非 学 术 著 作 ， 在 引用 文献 时 并 不 会 保证 
完备 性 ， 因 此 当 正 文 足以 说 明 观 点 和 方法 时 其 原始 文献 不 一 定 还 会 列 出 ， 请 读者 谅 
解 。 另外， 在 本 书 的 第 三 部 分 中 ， 为 帮助 读者 理解 ， 会 对 一 些 比较 关键 的 算法 给 
相应 的 代码 片段 。 不 过 本 书 中 的 代码 都 是 示例 性 代码 ， 目 的 仪 仅 是 为 了 更 清楚 地 摘 
述 逻 辑 ， 而 并 非 可 以 直接 编译 执行 的 程序 ， 其 中 一 些 特 别 容 易 理 解 实 现 的 子 函 数 调 
用 也 可 能 会 略 去 其 具体 实现 。 

本 书 的 内 容 主 要 是 由 刘 鹏 在 清华 大 学 的 公开 课 ， 以 及 在 北京 大 学 、 北 京 航空 航 
天 大 学 的 研究 生 课程 的 内 容 整 理 加 工 而 成 的 ， 并 且 在 整理 时 针对 更 广泛 的 读者 群体 
做 了 内 容 本 身 和 顺序 上 的 调整 。 在 两 位 作者 中 ， 刘 鹏 为 主要 执笔 者 ， 负 责 主 体 部 分 


的 写作 和 内 容 的 整体 组 织 ， 王 超 负 责 其 中 产品 案例 和 算法 示例 代码 的 部 分 。 由 于 作 
者 的 水 平 有 限 ， 再 加 上 时 间 仓 促 ， 书 中 难免 出 现 错漏 之 处 ， 敬 请 读者 多 多 批评 指 
正 。 此 外 ， 本 书 撰写 的 过 程 中 ， 我 们 邀请 了 一 些 业 内 的 专家 和 从 业者 帮忙 对 内 容 进 
行 把 关 ， 得 到 了 他 们 的 很 多 有 益 的 建议 ， 这 些 建议 使 本 书 更 加 完备 和 实用 ， 我 们 在 
此 一 并 表示 感谢 ， 并 将 其 中 部 分 专家 对 本 书 的 评价 附 在 书 中 。 

AH [ePUBw.COM| 整理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
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第 一 部 分 计算 广告 关键 技术 
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第 1 章 在 线 广告 综述 


在 线 广告 ， 也 称 为 网 络 广告 、 互 联网 广告 ,顾名思义 ， 指 的 是 在 线 媒体 上 投放 
的 广告 。 与 传统 广告 不 同 的 是 ， 在线 广 告 在 其 短 短 十 几 年 的 友 展 过 程 中 ， 已 经 形成 
了 以 人 群 为 投放 目标 、 以 产品 为 导向 的 技术 型 投放 模式 。 人 在线 广告 不 仅 为 三 告 主 市 
来 了 以 准确 接触 目标 受众 为 方法 论 的 全 新 的 营销 渠道 ， 也 为 互联 网 免费 产品 和 媒体 
提供 商 们 找到 了 规模 化 变现 的 手段 。 可 以 说 ， 不 论 你 在 做 一 款 用 户 产 品 还 是 商业 产 
品 ， 不 深入 了 解 在 线 广告 ， 就 不 太 可 能 全 面 地 了 解 互联 网 业务 。 因 此 ， 所 有 互联 网 
行业 的 从 业者 们 花 一 些 时 间 把 现代 的 在 线 广告 原理 和 产品 搞 清 楚 ， 不 仅 是 有 葵 的 ， 
而 且 是 必须 的 。 

从 另外 一 个 角度 ， 即 数据 的 角度 来 看 ， 在 线 广告 开启 了 大 规模 、 上 自动 化 地 利用 
数据 改善 产品 和 提高 收入 的 先河 。 可 以 不 夺 张 地 说 ， 在 过 去 相当 长 的 一 段 时 期 内 ， 
大 数据 (big data ) 这 一 方法 论 在 实践 中 唯一 形成 规模 化 营 收 的 藻 地 行业 就 是 在 线 
广告 ， 只 不 过 当年 大 数据 这 个 词 还 不 那么 流行 罢了 。 即 便 在 今天 ， 计 算 广告 仍然 是 
大 数据 应 用 中 最 为 成 熟 、 市 场 规模 最 大 的 行业 。 因 此 ， 对 大 数据 感 兴趣 的 读者 认真 
研究 在 线 广告 友 展 过 程 中 遇 到 的 技术 挑战 和 严 品 问题 ， 会 对 探索 其 他 的 大 数据 应 用 
ARARA, 

熟悉 在 线 三 告 市 场 的 朋友 都 知道 ， 这 一 领域 的 产品 形态 和 业务 逻辑 相当 复杂 。 
为 了 对 在线 广 告 有 安 观 上 的 把 握 ， 我 们 人 在 本 章 中 将 从 两 个 方面 来 探讨 : 一 是 它 的 内 
涵 ， 即 这 种 商业 活动 的 定义 与 目的 ; 二 是 它 的 外 延 ， 即 在 线 广告 友 展 的 向 要 历史 和 
上 太 展 过 程 中 产生 的 天 键 产 品 形态 。 对 其 中 的 许多 概念 和 观点 ， 读 者 未 必 能 够 马上 形 
成 清晰 的 印象 ， 然 而 随 着 内 容 的 展开 ， 读 者 能 够 刊 更 抽 丝 般 层 层 阴 进 地 加 深 理 解 ， 


XIREA BA SWE. A, dSEXXES3237h— 1 HBJ , Sizes nTBeSEHHIOTAR 
联网 广告 的 产品 和 技术 术语 ， 以 方便 后 面 的 讨论 。 

相 比 传统 的 线 下 广告 ， 在线 广 告 的 产品 和 创意 形式 由 于 互联 网 媒体 形态 、 交 互 
方式 等 方面 存在 非常 大 的 差异 ， 也 呈现 出 各 种 各 样 的 表现 形式 。 我 们 也 将 对 其 中 比 
较 弟 见 的 创意 形式 作 和信 要 介绍 ， 希望 读者 能 对 在 线 广告 的 具体 表现 有 直观 的 了 解 。 

本 章 的 内 容 与 计算 基本 无 关 ， 目 的 在 于 让 读者 在 进入 计算 广告 领域 之 初 就 建立 
起 一 些 重要 观念 。 首 先 ， 广 告 不 完全 等 同 于 搜索 或 推荐 ， 它 首先 是 一 项 商业 活动 ， 
然后 才 是 一 项 在 互联 网 环境 下 需要 技术 优化 的 商业 活动 ; 其 次 ， 在 这 一 商业 活动 
中 ， 广告 主 、 媒 体 和 用 户 的 利益 都 需要 被 认真 考虑 和 满足 ， 这样 才能 达到 整个 市 场 
的 平衡 和 不 断 友 展 。 在 线 广告 市 场所 有 产品 和 商业 形式 的 演进 ， 都 是 在 这 一 主题 下 
发 生 的 。 在 商业 逻辑 的 框架 下 思考 和 探索 计算 广告 技术 对 理解 本 书 中 提 到 的 产品 、 
架构 和 算法 非常 关键 。 


1.1 大 数据 与 广告 所 


近年 来 ， 大 数据 思维 和 技术 渐 成 显 学 。 然 而 ， 大 数据 这 一 概念 至 今 为 止 并 没有 
一 个 内 涵 上 准确 的 界定 。 在 参考 文献 [56] 中 ， 作 者 用 Volume ( 规模 ) 、 
Variety ( 多 样 性 ) Velocity ( 高 速 ) 和 Value ( 价值 ) ， 即 所 谓 的 4V 特 征 来 摘 
述 大 数据 问题 的 特性 ， 但 并 没有 给 出 这 类 问题 的 界定 标准 。 然 而 ， 从 实际 操作 的 角 
度 来 看 什么 是 大 数据 问题 或 许 要 比 理论 上 的 定义 简单 一 些 : 如 果 有 的 数据 处 理 问题 
无 法 通过 数据 采样 的 方法 来 降低 处 理 的 复杂 程度 ， 就 必须 利用 一 些 专门 为 海量 数据 
处 理 而 设计 的 计算 和 存储 技术 ( 如 ”MapReduce、NoSQL 数 据 库 等 ) 来 实现 。 于 是 ， 
这 样 的 问题 也 就 从 工程 上 归 为 大 数据 问题 ， 图 1-1 阐 释 了 这 一 视角 。 


问题 的 目标 函数 


C 


- 数据 采样 率 
1% 10% 100% 


图 1-1 大 数据 问题 的 特性 示意 

在 图 1-1 中 ， 我 们 考察 的 是 某 一 个 有 确定 目标 函数 的 数据 处 理 问 题 。 图 中 的 三 条 
曲线 是 三 类 有 代表 性 的 数据 间 题 。 

( 1 ) C 类 问题 。 从 工程 方便 的 角度 来 看 ， 如 果 通 过 数据 及 样 能 够 显著 降低 数据 
处 理 的 复杂 程度 ， 同 时 解决 问题 的 效果 ( AUB PREY ) 没有 太 大 的 下 降 ， 那么 显然 
应 该 这 样 做 。 这 类 问题 可 以 用 图 1-1 中 的 C 曲线 来 示意 。 由 于 可 以 通过 很 低 的 采 
样 率 解 决 问题 ， 并 不 需要 大 规模 分 布 式 的 计算 架构 ， 用 传统 的 数据 方案 束 可 以 解 
决 ， 因 此 ， 这 类 问题 应 该 归 为 传统 数据 处 理 问题 ， 而 非 大 数据 问题 。 一 般 的 统计 报 
表 、 报 告 等 往往 属于 这 类 问题 。 

( 2 ) A 类 问题 。 另 外 有 一 些 数 据 问题 基本 上 不 可 能 通过 只 处 理 一 小 部 分 数据 来 
达到 处 理 全 量 数据 所 能 达到 的 效果 ， 或 者 说 随 着 数据 采样 率 的 降低 ， 解 决 问题 的 收 


葵 会 快速 下 降 ， 这 类 问题 是 典型 的 大 数据 问题 ， 用 图 1-1 中 的 A 曲线 来 示意 。 由 
于 需要 处 理 大 规模 的 全 量 数 据 ， 传 统 的 存储 和 计算 架构 都 不 再 合适 ， 必 须 寻 找 新 的 
方案 ， 这 实际 上 是 推动 大 数据 技术 友 展 的 原动力 。 个 性 化 推荐 (personalized 
recommendation ) 和 计算 广告 ( computational advertising ) 需要 用 到 每 一 个 
人 的 行为 进行 定制 化 推送 ， 而 无 法 只 采样 其 中 的 一 部 分 人 来 处 理 ， 因 此 可 以 认为 是 
典型 的 大 数据 问题 。 大 数据 问题 由 于 无 法 利用 传统 的 计算 架构 和 数据 仓库 来 处 理 , 
因此 才 会 产生 Hadoop 等 新 的 基础 设施 和 NoSQL 数 据 人 存储 等 技术 。 

(3) B 类 问题 。 当 然 ， 实 践 当中 大 数据 问题 和 一 般 数 据 处 理 问 题 并 不 是 泾 渭 分 
明 的 。 有 一 些 问题 ， 其 处 理 效 果 随 着 数据 量 的 上 升 有 一 定 提高 ， 但 当 数 据 大 到 一 定 
规模 以 后 ， 再 增加 数据 量 价值 束 不 大 了 ， 这 类 问题 可 以 用 图 1-1 中 的 B 曲线 来 示 
意 。 一 个 典型 的 例子 是 文本 主题 模型 ( topic model ) 。 我 们 用 1886 万 文档 往往 会 
得 到 比 ” 16 万 文档 更 稳定 、 更 有 意义 的 主题 ， 然 而 用 16 亿 文档 和 用 1 亿 文 档 差 别 可 能 
就 会 不 那么 明显 。 在 解决 这 类 问题 时 ， 往 往 是 选取 一 个 有 较 大 规模 但 并 非 全 量 的 数 
据 集 来 处 理 。 针 对 这 种 中 等 规模 问题 上 的 复杂 算法 ， 也 产生 了 像 Spark 这 样 更 加 灵活 
高 效 的 计算 框架 。 

很 显然 ， 从 以 上 观点 出 友 ， 计 算 广告 是 非常 典型 的 大 数据 应 用 。 实 际 上 ， 在 以 
往 相当 长 的 一 段 时 期 里 ， 我们 认为 唯一 得 到 充分 商业 化 和 规模 化 的 大 数据 应 用 就 是 
计算 广告 。 计 算 广 告 为 各 行 各 业 大 数据 的 落地 提供 了 非常 有 价值 的 借鉴 范本 ， 下面 
几 扎 尤其 值得 了 解 和 关注 。 

(1) 计算 广告 为 规模 化 地 将 用 户 行 为 数据 转化 为 可 衡量 的 商业 价值 提供 了 完整 
产品 线 和 解决 方案 ， 并 且 实 际 上 创造 了 互联 网 行业 大 部 分 的 营 收 。 

(2) 在 线 广告 孕育 和 孵化 了 较为 成 熟 的 数据 加 工 和 交易 产业 链 ， 并 对 其 中 的 用 
尸 隐私 边界 有 深入 探讨 ， 这 值得 所 有 涉及 用 户 数 据 的 互联 网 应 用 学 习 和 借鉴 。 

(3) 由 于 有 了 商业 上 的 限制 条 件 ， 计 算 广 告 的 技术 和 产品 逻辑 比 单纯 的 个 性 化 


系统 更 加 复杂 周密 。 因 此 ， 理 解 在 线 广告 的 产品 和 市 场 对 于 设计 正确 有 效 的 商业 产 
MAAMA, 

由 于 以 上 这 些 原因 ， 如 果 你 是 一 位 从 事 大 数据 或 商业 产品 的 产品 经 理 、 工 程 师 
或 管理 者 ， 我 们 强烈 建议 你 认真 了 解 一 下 广告 的 产品 和 技术 ， 相 信 你 一 定 会 有 很 大 
的 收获 ， 也 会 快捷 地 了 解 到 这 一 领域 真正 有 挑战 的 问题 是 什么 。 本 着 这 样 的 目的 , 
我 们 在 本 书后 续 部 分 中 将 广告 市 场 的 产品 和 技术 演进 作为 一 条 明 的 主线 ， 而 将 这 一 
市 场 对 数据 的 利用 程度 作为 一 条 上 暗 的 主线 来 展开 。 希 望 读者 能 够 通过 阅读 本 书 ， 具 
体 地 了 解数 据 是 如 何 通 过 广告 市 场 规模 化 地 创造 商业 价值 的 。 


在 了 解 计算 广告 之 前 ， 我 们 先 从 了 解 一 般 广告 的 目的 开始 。 什 么 是 广告 ? 可 以 
参考 Wi11iam F.Arens 在 《当代 广告 学 》= 中 给 出 的 定义 : 

告 是 由 已 确定 的 出 资 人 通过 各 种 媒介 进行 的 有 关 产 品 ( 商品 、 服 务 和 观点 ) 
的 ， 通 常 是 有 偿 的 、 有 组 织 的 、 绪 合 的 、 劝 服 性 的 非 人 员 的 信息 传播 活动 。 

这 一 定义 中 有 两 个 天 键 点 。 首 先 ， 它 指出 了 广告 活动 的 两 个 主动 参与 方 一 一 出 
tA (sponsor ) 和 媒体 ( medium ) 。 在 数字 广告 这 样 更 加 复杂 的 市 场 结 构 中 ， 我 
们 可 以 用 一 般 性 的 术语 来 摘 述 它们 : 需求 方 ( demand ) 和 供给 方 ( supply ) 。 这 里 
的 需求 方 可 以 是 广告 主 ( advertiser ) 、 代 表 广 告 主 利益 的 代理 商 ( agency ) 或 其 
他 技术 形态 的 采 买 方 ; 这 里 的 供给 方 可 以 是 媒体 ， 也 可 以 是 其 他 技术 形态 的 变现 平 
人 台 。 另 外 ， 要 特别 注意 的 是 ， 广 告 还 有 一 个 被 动 的 参与 万 ， 即 受众 ( audience ) 。 
请 大 家 从 现在 开始 就 牢 牢 建立 起 这 样 的 概念 : 出 换 和 人、 媒体 和 受众 这 三 者 的 利益 博 
询 天 系 是 广告 活动 永远 的 主线 ， 这 一 主线 将 贯穿 于 商业 和 产品 形态 的 整个 演化 过 
程 。 另外， 该 定义 还 前 明了 广告 必须 是 有 位 的 、 非 人 员 的 信息 传播 活动 。 这 两 点 限 
制 ， 前 者 使 得 广告 的 目标 变 得 明确 ， 后 者 使 得 这 一 目标 可 以 及 用 计算 的 方式 来 优 


化 ， 而 这 些 都 是 计算 广告 产生 的 基础 。 
告 这 一 商业 行为 ， 其 本 质 目的 是 什么 呢 ? 在 不 同 的 时 代 ， 广告 主 与 媒体 对 这 

一 问题 存在 着 不 同 的 认 知 。 在 传统 媒体 时 代 ， 供 给 方 与 需求 方 在 市 场地 位 上 有 相当 
的 距离 ， 不 论 你 运营 的 是 电视 人 台 、 机 场 或 杂志 ， 都 与 大 多 数 广 告 主 需 要 的 转化 行为 
之 间 有 相当 大 的 差距 。 因 此 ， 这 一 阶段 广告 的 目的 是 希望 借助 媒体 的 力量 来 快速 接 
触 大 量 用 户 ， 以 达到 宣传 品牌 形象、 提升 中 长 期 购买 率 与 利润 空间 的 目的 。 这 种 目 
的 的 广告 称 为 品牌 广告 (brand awareness), 。 当 然 ， 也 有 许多 广告 商 希望 能 利用 
广告 手段 马上 市 来 大 量 的 购买 或 其 他 转化 行为 ， 这 种 目的 的 广告 称 为 直接 效果 广告 
(direct response) ， 有 时 也 简称 为 效果 广告 。 

在 传统 广告 产品 中 ， 大 量 投 送 和 优化 效果 广告 的 能 力 显 然 是 缺乏 的 。 这 是 因 
为 ， 对 短期 效果 的 追求 要 求 广告 精准 地 送 达 目标 人 群 ， 而 这 在 传统 媒体 上 缺乏 有 效 
的 技术 手段 。 我 们 能 够 想起 的 以 效果 为 目的 的 传统 广告 玖 怕 只 有 在 写字 楼 下 散发 的 
快餐 传单 ， 而 数字 媒体 的 出 现 使 得 效果 广告 空前 选 勃 地 友 展 起 来 。 这 主要 有 两 方面 
的 原因 : 一 是 数字 媒体 的 特点 可 以 让 我 们 低 成 本 地 投 送 个 性 化 广告 ; 二 是 一 些 在 线 
服务 ， 如 搜索 、 电 子 商务 ， 由 于 可 以 更 清楚 地 了 解 用 己 的 意图 ， 也 器 使 广告 效果 的 
优化 更 加 容易 。 

互联 网 广告 兼 有 品牌 和 效果 两 方面 的 功能 。 不 过 要 说 明 的 是 ， 到 目前 为 止 , E 
联网 广告 行业 的 高 速 友 展 主 要 是 由 于 效果 广告 市 场 市 来 的 巨大 红利 。 从 表 1-1 呈 中 可 
以 看 出 ， 网 络 广告 的 市 场 规模 上 友 展 迅猛 ; 与 此 同时 ， 传 统 广告 渠道 则 增长 乏力 或 快 
速 下 降 。 对 比 来 看 ， 网 络 广 告 的 迅猛 成 长 并 没有 直接 市 来 电视 广告 的 市 场 萎缩 。 这 
是 因为 网 络 广告 的 主要 场景 仍然 集中 在 搜索 引擎 营销 、 效 果 类 广告 网 络 等 直接 效果 
类 的 广告 活动 上 ， 而 这 部 分 相对 于 电视 的 品牌 广告 更 多 地 是 增 量 而 非 蔡 代 。 另 一 方 
面 ， 报 纸 广 告 则 随 着 互联 网 的 快速 崛起 而 下 降 ， 这 一 方面 是 因为 报纸 占据 的 用 户 时 
间 大 幅 被 互联 网 抢 走 ， 另 外 也 是 由 于 报纸 上 一 部 分 的 分 类 信息 广告 与 互联 网 效果 类 
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冲击 力 更 强 的 媒体 的 普及 ， 网 络 渠道 也 必 将 在 品牌 广告 方面 有 更 多 的 用 武之 地 。 
表 1-1 中 美 主要 广告 市 场 规模 ( 单位 : 亿美 元 ) 


既然 有 品牌 和 效果 这 两 种 目标 ， 究 竟 如 何 描述 广告 这 种 商业 活动 的 根本 目的 
呢 ， 我 们 仍然 借用 《当代 广告 学 》 中 的 见解 : 

广告 的 根本 目的 是 广告 主 通 过 媒体 达到 低 成 本 的 用 户 接触 。 

也 就 是 说， 按 某 种 市 场 意图 接触 相应 的 人 群 ， 进 而 影响 其 中 的 潜在 用 户 ， 使 他 
们 选择 广告 主 产品 的 几率 增加 ， 或 者 对 产品 性 价 比 的 苛求 程度 降低 ， 这 才 是 广告 的 
根本 目的 。 至 于 短期 内 的 转化 效果 ， 由 于 市 场 意图 或 媒体 性 质 的 不 同 ， 并 不 是 直接 
可 比 。 换 句 话 说， 如 果 仅 仅 以 转化 效果 为 目的 来 思考 问题 ， 可 能 会 背离 投放 广告 的 
正确 方法 论 。 举 个 例子 ， 某 感冒 药 广告 商 如 果 以 短期 效果 为 导向 ， 那 么 最 佳 的 策略 
是 把 广告 投放 给 那些 现在 感冒 的 人 ， 不 过 这 显然 是 一 个 帝 雇 的 决策 ; 再 比如 ， 某 汽 
车 广告 商 为 了 提升 自己 的 品牌 形象 ， 希 望 对 自己 竞 品 品牌 的 用 户 加 强 宣传 ， 而 对 于 
这 部 分 人 群 ， 广 告 的 直接 效果 甚至 有 可 能 比 随 机 投放 还 要 差 。 认 清 这 一 概念 ， 使 得 
大 家 在 遇 到 多 种 广告 渠道 的 效果 比较 时 能 够 避免 偏颇 的 结论 。 关 于 这 一 点 ， 有 所 谓 
整合 营销 (integrated marketing) 的 概念 ， 即 通过 多 种 渠道 的 有 机 配合 来 达到 
整体 投放 效果 的 最 优 ， 这 并 非 本 书 讨论 的 重点 ， 有 兴趣 的 读者 可 以 参考 其 他 文献 。 





广告 的 “ 低 成 本 ”是 与 那些 由 市 场 或 销售 人 员 完 成 的 劝 服 活动 成 本 相对 而 言 
的 ， 实 际 上 是 广告 搭 了 媒体 流量 和 影响 力 的 便 车 。 要 确定 是 否 真 的 成 本 较 低 ， 需 要 
用 到 投入 产 出 比 (Return On Investment , ROI) 这 一 评价 捐 标 ， 即 某 次 广告 活动 
的 总 产 出 与 总 投入 的 比例 。 在 实际 中 ， 上 广告 活 动 的 总 投入 容易 确定 ， 但 总 产 出 的 确 
定 却 不 那么 容易 ， 特 别 是 在 投放 以 中 长 期 收益 为 目标 的 品牌 广告 时 。 因 此 ， 绝 对 的 
ROI “有 时 难以 计算 ， 不 过 通过 各 个 渠道 之 间 的 对 比 ， 我 们 仍然 可 以 评估 广告 的 成 本 
是 否 令 人 满意 。 

需要 说 明 ， 在 互联 网 环境 中 ， 广 告 的 本 质 虽然 没有 变化 ， 但 是 由 于 大 量 直 接 效 
果 需 求 的 产生 ， 其 表现 形式 越 来 越 丰 语 和 灵活 了 。 不 论 是 与 线 下 类 似 的 横幅 、 搜 索 
竞价 排名 ， 还 是 软文 ， 其 至 是 表面 上 与 广告 并 不 相干 的 游戏 联运 ， 其 本 质 都 是 付费 
的 信息 推广 ， 从 产品 和 技术 的 角度 来 看 都 可 以 归 在 广告 的 范畴 下 。 因 此 ， 对 于 互联 
网 广告 ， 我 们 有 如 下 的 认识 : 

一 切 付费 的 信息 、 产 品 或 服务 的 传播 渠道 ， 都 是 广告 。 

那么 ， 在 线 广告 主要 有 哪些 表现 形式 呢 ? 我 们 将 在 1.3 节 中 介绍 。 


1.3 在 线 广告 创意 类 型 


在 线 广告 除了 产品 有 诸多 形态 ， 与 用 户 接触 的 创意 形式 也 有 多 种 多 样 的 选择 ， 
并 且 随 着 互联 网 产品 的 发 展 变 得 越 来 越 丰 富 。 诸 多 在 线 广告 的 创意 类 型 在 投 送 方式 
和 用 户 交 互 方式 等 方面 有 不 同 的 选择 ， 下 面 我 们 对 其 中 一 些 常见 的 类 型 进行 简要 介 
绍 。 

( 1 ) 横幅 广告 (banner ad ) 。 这 是 展示 广告 中 最 传统 也 是 最 典型 的 形式 。 横 
幅 广 告 一 般 是 嵌入 在 页 面 中 相对 固定 位 置 的 图 片 ， 需 要 占据 固定 的 版 面 ， 因 此 ， 这 
种 广告 一 般 要 有 底层 的 备 选 广告 素材 ， 以 防 没有 合适 的 广告 匹配 时 页 面 上 开 天 窗 。 
目前 ， 横 幅 广 告 大 多 数 也 都 不 再 是 静止 的 图 片 ， 而 是 由 Flash 或 其 他 技术 方式 实现 的 


动态 素材 。 图 1-2 中 给 出 了 横幅 广告 的 一 个 示例 。 
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图 1-2 横幅 广告 示例 

(2) 文字 链 广告 ( textual ad ) 。 这 种 广告 的 素材 形式 是 一 段 链 接 到 广告 主 
藻 地 页 的 文字 ， 在 搜索 广告 中 为 主流 形式 ， 同 时 在 展示 广告 中 也 被 广泛 采用 。 文 字 
链 广 告 有 时 像 横 幅 广 告 那 样 占据 固定 的 版 面 ， 有 时 也 可 以 穿插 在 大 量 内 容 链 接 条 目 
中 。 在 后 一 种 情形 下 ， 广告 投放 引擎 可 以 灵活 决定 是 否 投 出 该 文字 链 广 告 ， 以 及 投 
出 的 条 目 数 。 典 型 的 例子 残 是 搜索 广告 ， 如 图 1-3 所 示 。 
找 司 代理 各 报 类 文字 广告 ,价格 优惠 ,电话 :400-831-3770 www bjhhtc cn 
华 恒 天 成 专业 文字 广告 ,资深 专业 ,专注 于 服务 ,创造 品牌 .电话 :87765716 

图 1-3 文字 链 广 告示 例 

(3) 富 媒体 广告 ( rich media ad). 。 这 类 广告 往往 是 利用 视 党 站 击 力 较 强 的 
表现 形式 ， 在 不 占用 固定 版 面 位 置 的 情况 下 ， 向 用 户 侵入 式 地 投 送 广告 素材 。 富 媒 
体 广告 常见 的 形式 有 弹 窗 、 对 联 、 全 屏 等 。 它 比较 适合 在 高 质量 的 媒体 做 一 些 品牌 
性 质 比较 强 的 广告 投放 ， 但 是 对 用 户 的 使 用 体验 往往 影响 也 较 大 。 宣 媒体 广告 与 横 
幅 广 告 不 同 ， 在 未 售 出 的 情况 下 可 以 静默 ， 因 而 没有 防 天 窗 的 问题 。 一 些 门户 网 站 
的 首页 有 时 会 为 某 个 品牌 广告 主 提供 专门 定制 的 、 交 互 形 式 很 复杂 的 富 媒 体 广 告 ， 
这 样 的 广告 一 般 不 采用 按 人 群 投 放 的 逻辑 ， 也 主要 强调 创意 的 冲击 力 和 交互 形式 的 
特色 。 图 1-4 中 给 出 了 一 个 富 媒体 广告 中 的 弹 窗 广 告示 例 。 
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(4 ) 视频 广告 (video ad). 。 随 着 人 在线 视频 的 快速 友 展 ， 在 视频 流 播 放 的 间 
阶 插 入 的 广告 也 成 为 互联 网 广告 的 一 种 重要 形式 。 根 据 插 入 位 置 的 不 同 ， 视 频 广告 
又 可 以 分 为 前 插 片 、 后 插 片 、 暂 停 等 类 型 。 视 频 广告 由 于 载体 的 独特 性 质 ， 其 效果 
和 广告 创意 比较 类 似 于 线 下 的 电视 广告 。 相 应 地 ， 有关 视频 广告 的 效果 评价 ， 除 了 
计算 与 横幅 广告 一 样 的 点 击 率 ， 还 可 以 及 用 用 户 观 看 时 长 等 更 接近 于 用 户 印 象 的 指 
标 。 

视频 广告 有 两 种 最 主要 的 形式 : 在 视频 内 容 播 放 之 前 的 前 插 片 广告 以 及 视频 播 
放 暂 停 时 的 广告 。 图 1-5 ”中 给 出 了 这 两 种 视频 广告 形式 的 示例 。 前 揪 片 广告 一 般 采 
用 短视 频 的 形式 ， 创 意 的 冲击 力 和 表现 力 要 远 远 强 于 普通 的 展示 广告 ， 因 此 价格 往 
往 也 比较 高 ; 暂停 广告 则 与 普通 的 横幅 广告 区 别 不 大 。 
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图 1-5 视频 广告 示例 : 前 插 片 广告 ( 左 ) 暂停 广告 ( 右 ) 
(5) 社交 广告 ( social ad). 。 社 交 网 络 的 兴起 给 广告 的 传播 渠道 和 能 力 都 赋 
予 了 新 的 空间 。 在 社交 网 络 环境 下 网 入 的 广告 可 以 通称 为 社交 广告 。 社 交 广 告 中 最 
典型 的 形式 是 插入 在 社交 网 络 信息 流 中 的 广告 ， 这 种 方式 最 早 见于 Twitter ,产品 
称 为 “Promoted  Tweets”。 这 种 方式 力求 企 用 户 目 然 天 注 的 交互 过 程 中 尽 可 能 目 
然 地 搬入 广告 ， 也 被 归于 原生 广告 的 范畴 中 。 我 们 认为 ，“ 社 交 广 告 ”与 “社交 网 
络 中 的 广告 ”是 两 个 不 同 的 概念 ， 如 在 社交 网 络 页 面 上 竞价 售卖 的 文字 链 或 横幅 广 
告 ， 其 本 质 并 不 因为 处 于 社交 网 络 中 有 太 大 的 变化 。 社 交 广 告 希 望 达 到 的 效果 是 通 
过 用 户 的 扩散 式 传播 获得 更 大 的 影响 力 和 口碑 ,从 这 个 意义 上 讲 ， 在 信息 流 的 交互 
中 挖掘 价值 前 景 光明 。 图 1-6 中 给 出 了 社交 网 络 信息 流 广告 的 一 个 示例 。 
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图 1-6 社交 网 络 信息 流 广告 

(6) 移动 广告 (mobile ad ) 。 移 动 互 联网 在 近 几 年 爆发 式 地 增长 ， 并 且 大 有 
取代 朱 面 互联 网 之 势 。 严 格 来 说 ， 移 动 瑟 联网 上 的 广告 形式 与 朱 面 电脑 上 的 广告 没 
有 本 质 的 区 别 ， 不 过 由 于 移动 设备 上 应 用 的 大 量 普 及 ， 广 告 也 由 Web 访问 的 页 面 上 
搬 进 了 应 用 里 。 于 是 ， 也 产生 了 在 应 用 中 插入 广告 的 SDK 和 相应 的 广告 网 络 。 目 前 移 
动 广告 典型 的 形式 有 横幅 、 开 屏 、 插 屏 、 积 分 墙 或 推荐 墙 等 。 图 1-7 中 给 出 了 移动 广 
告 形式 的 一 些 示例 ， 我 们 将 在 第 7 章 中 具体 讨论 与 移动 广告 和 原生 广告 相关 的 产品 问 
题 。 

(7 ) 邮件 定向 营销 广告 (E-mail Direct Marketing, ，EDM ) 。 这 是 通过 电 
子 邮 件 的 方式 向 目标 用 户 传递 推广 信息 的 一 种 网 络 草 销 手段 。 与 上 面 各 种 广告 形式 


都 不 同 ，EDM 是 一 种 主动 的 广告 形式 ， 它 不 需要 等 到 用 户 接触 的 机 会 出 现时 才 被 动 地 


提供 广告 ， 而 是 可 以 随时 向 认为 合适 的 用 户 友 送 推广 信息 。 不 过 也 正 因为 如 此 ，EDM 
非常 容易 变 成 垃圾 邮件 的 主要 来 源 。 因 此 ， 对 EDM 的 运营 者 而 言 ， 精 准 地 把 握 用 户 兴 
趣 、 非 常 有 蔬 制 地 提供 对 用 户 用 价值 的 相关 信息 是 非常 天 键 的 。 比 起 展示 广告 ，EDM 
中 受众 定 同 的 利用 更 加 直接 ， 也 更 为 重要 。 图 1-8 中 给 出 了 邮件 营销 广告 的 一 些 示 
例 。 另 外 ， 通 过 短信 、iMessage 等 万 式 投 放 的 广告 与 邮件 营销 广告 也 非常 相似 。 
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图 1-7 移动 广告 形式 示例 
(QW 【139 邮 箱 精 品 订阅 】《 意 林 为 系列 杂志 5 月 里 限时 免费 咯 ! 读经 典 文摘 S. — 5-23( 四 ) 02:46 





海信 海信 电视 “节能 补 财 收 官 ， 以 旧 换 新 重 现 ”, 领取 340 元 折旧 券 ! 5-22(=) 03:19 
图 1-8 邮件 定向 营销 广告 ( EDM) 示例 
当然 ， 由 于 广告 的 本 质 是 一 切 付费 的 信息 、 产 品 或 服务 的 传播 渠道 ， 在 线 广 告 
实际 上 的 产品 范畴 远 远 不 是 上 面 介 绍 的 这 几 种 创意 形式 可 以 包罗 的 。 除 了 上 面 这 些 


以 创意 为 载体 的 推广 的 狭义 广告 形式 ， 还 有 很 多 的 付费 推广 类 商业 产品 也 可 以 认为 
是 广义 的 广告 产品 ， 其 本 质 的 产品 技术 框架 与 普通 广告 非 剃 类似， 我们 将 在 1.5 书 进 


一 步 介 绍 这 些 泛 广告 产品 。 


`Y 人 和 人 
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在 讨论 广告 扩 术 之 前 ， 我 们 先 浏 览 一 下 在 线 广告 友 展 的 历程 。 因 为 广告 市 场 的 
概念 、 技 术 和 术语 繁多 ， 如 果 不 是 对 这 些 有 基本 的 了 解 ， 很 难 深入 探讨 具体 的 产 
品 。 

回 到 20 世纪 未 ， 那 时 的 在 线 媒 体 (如 AOL, Yahoo! 等 网 站 ) 刚刚 产生 不 
久 。 他 们 已 经 取得 了 不 错 的 流量 规模 ， 可 是 投资 人 当然 希望 这 些 媒 体 也 能 够 给 他 们 
带 来 真 金 白 银 。 要 对 这 些 线 上 流量 进行 变现 ， 最 直接 的 方法 就 是 把 网 站 的 HTML 页 面 
当成 杂志 的 版 面 ， 在 里 面 插 入 广告 位 。 供 给 方 有 了 “， 那 么 需求 方 呢 ? 线 下 的 广告 代 
理 公司 也 融 把 这 些 网 站 当成 一 本 本 新 的 杂志 ， 按 原来 的 思路 和 逻辑 进行 采 买 。 这 种 
在 互联 网 上 展示 广告 创意 的 产品 形式 称 为 展示 广告 (display advertising) , t 
叫 显 示 广 告 。 这 一 阶段 的 展示 广告 售卖 模式 称 为 合约 广告 ( agreement-based 
advertising) ， 即 采用 合同 约定 的 方式 确定 某 一 广告 位 在 某 一 时 间 段 为 某 特定 广 
告 主 所 独占 ， 并 且 根 据 双方 的 要 求 ， 确 定 广告 创意 和 投放 策略 。 当 然 ， 这 样 的 采 买 
模式 还 没有 对 计算 的 需求 ， 因 为 此 时 唯一 需要 的 就 是 把 广告 主 的 创意 作为 一 个 HTML 
的 片段 插入 到 媒体 的 页 面 中 。 然 而 ， 情 况 变化 很 快 ， 互 联网 媒体 为 了 营 收 的 增长 ， 
希望 逐年 甚至 逐 季 提高 自己 的 广告 位 报价 。 在 流量 快速 增长 或 者 数字 广告 逐渐 为 广 
告 主 认 知 的 阶段 ， 提 价 是 比较 容易 被 市 场 接受 的 。 可 是 当 媒 体 的 流量 和 品牌 认 知 度 
都 相对 稳定 以 后 ， 又 有 什么 新 的 提高 收入 的 办 法 呢 ? 

互联 网 广告 运营 者 们 经 过 探索 ， 很 快 整 友 现 了 在 线 广告 不 同 于 传统 媒体 广告 的 
Atm : 我 们 可 以 对 不 同 的 受众 呈现 不 同 的 广告 创意 ! 在 今天 看 来 再 平常 不 过 的 


这 个 观念 ， 实 际 上 是 在 线 广 告 的 效果 和 市 场 规模 不 断 发 展 的 核心 驱动 力 。 认 识 到 这 
一 点 ， 媒 体 找到 了 一 条 能 使 广告 位 报价 继续 提高 的 思路 。 例 如 ， 可 以 把 某 广告 位 的 
男性 受众 和 女性 受众 卖 给 不 同 的 广告 主 ， 比 如 对 男性 受众 展示 某 剃 须 刀 品牌 的 广 
告 ， 而 对 女性 受众 展示 某 化妆 品 品牌 的 广告 。 这 样 的 广告 投放 方式 称 为 定向 广告 
(targeted advertising). 。 很 显然 ,这 样 的 广告 系统 已 经 对 计算 技术 产生 了 两 
个 具体 需求 : 一 是 受众 定向 (audience targeting) ， 即 通过 近 术 手段 标定 某 个 
用 户 的 性 别 、 年 龄 或 其 他 标签 ; 二 是 广告 投放 (ad serving) ， 即 将 广告 投 送 由 直 
接 坐 入 页 面 变 为 实时 响应 前 端 请 求 ， 并 根据 用 户 标 签 自动 决策 和 返回 合适 的 广告 创 
意 。 由 于 从 传统 的 品牌 广告 延伸 而 来 ， 此 时 的 定向 广告 仍然 以 合约 的 方式 进行 。 媒 
体 向 广告 主 保证 某 个 投放 量 ， 并 在 此 基础 上 确定 合同 的 总 金额 以 及 投放 量 未 完成 情 
况 下 的 赔偿 方案 。 这 种 担保 式 投 送 (Guaranteed Delivery , GD ) 的 交易 方式 逐渐 
成 为 互联 网 合约 式 广告 的 主要 商业 模式 。 一 般 来 说 ， 这 样 的 合约 仍然 主要 面向 品牌 
广告 主 ,并且 遵 循 按 干 次 展示 付费 (Cost per Mille, CPM) 的 计 费 方式 。 

合约 广告 系统 中 有 一 个 重要 的 计算 问题 ， 即 在 满足 各 合约 目标 受众 量 要 求 的 同 
时 尽 可 能 为 所 有 广告 商 分 配 到 质 更 好 的 流量 。 这 一 问题 有 两 个 难点 : 一 是 如 何 有 效 
地 将 流量 分 配 到 各 个 合约 互相 交叉 的 人 群 覆 盖 上 ; 二 是 要 在 在 线 的 环境 下 实时 地 完 
成 每 一 次 展示 决策 。 这 个 问题 称 为 在 线 分 配 (online allocation) 。 如 果 将 各 合 
约 的 量 看 作 约 束 条 件 ， 将 某 种 度量 下 的 质 看 作 目 标 函 数 ， 可 以 利用 带 约束 优化 
(constrained optimization ) 的 数学 框架 来 探索 这 一 问题 。 为 了 得 到 在 线 环境 
下 切实 可 行 的 解决 方案 ， 学 术 界 和 工业 界 的 同仁 在 理论 和 工程 方面 进行 了 大 量 的 研 
究 ， 有 一 些 高 效 且 简便 的 实用 方案 已 经 为 各 媒体 广泛 采用 。 

需要 注意 ， 展 示 广 告 领域 定向 投放 的 最 初 动机 是 供给 方 为 了 拆 分 流量 以 获得 
高 的 营 收 。 如 果 一 开始 就 提供 非常 精细 的 定向 ， 反 而 会 造成 售卖 率 的 下 降 。 因 此 ， 
最 初 的 定向 标签 往往 都 设置 在 较 粗 的 粒度 上 ， 最 典型 的 是 一 些 人 口 属 性 标签 。 受 众 





定向 显然 更 符合 需求 方 的 口味 和 利益 一 一 不 要 蕊 了 ， 广 告 市 场 的 钱 全 部 是 来 自 需 求 
方 的 ， 他 们 的 利益 被 满 足 得 越 好 ， 市 场 的 规模 融会 越 大 。 因 此 ， 受 众 定 向 产生 以 
后 ， 市 场 向 着 精细 化 运作 的 方向 快速 友 展 。 这 一 上 友 展 主要 有 两 万 面 的 趋势 : 一 是 定 
向 标签 变 得 越 来 越 精准 ; 二 是 广告 主 的 数量 不 断 膨胀 。 在 这 些 趋势 下 ， 仍 然 按 照 合 
约 的 方式 售卖 广告 会 遇 到 越 来 越 多 的 有 麻烦。 首先 ， 很 难 对 这 些 细 粒 度 标 签 组 合 的 流 
量 做 准确 预 估 ; 其 次 ， 当 一 次 展示 同时 满足 多 个 合约 的 时 候 ， 仪 仪 按 照 量 约束 下 的 
在 线 分 配 策略 进行 决策 有 可 能 滔 费 掉 了 很 多 本 来 可 以 卖 得 更 贵 的 流量 。 婚 然 量 的 约 
束 市 来 了 这 些 麻 烦 ， 有 没有 可 能 擅 弃 量 的 保证 而 米 用 最 唯利是图 的 策略 来 进行 广告 
决策 ?这样 的 思路 众生 了 计算 广告 历史 上 革命 性 的 产品 模式 一 一 竞价 广告 
(auction-based advertising ) 。 在 这 种 模式 下 ， 供 给 方 只 同 广 告 主 保证 质 即 单 
位 流量 的 成 本 ， 但 不 再 以 合约 的 方式 给 出 量 的 保证 ， 换 言 之， 对 每 一 次 展示 都 基本 
按照 收益 最 高 的 原则 来 决策 。 

上 面 是 从 展示 广告 的 友 展 看 竞价 产生 的 原因 ， 实 际 历 史 的 足迹 却 并 非 如 此 。 竞 
价 广告 产生 的 最 初 场景 是 在 互联 网 广告 最 主要 的 金太 一 一 搜索 广告 ( search ad) 
中 。 在 以 Google 为 代表 的 搜索 引擎 在 技术 成 熟 以 后 ， 迅 速成 为 互联 网 新 的 入 口 。 
与 门户 网 站 不 同 ， 搜 索引 擎 从 一 开始 就 没有 被 当 作 媒体 来 看 待 ， 因 此 搜索 流量 的 变 
现 也 采用 了 与 服务 自然 结合 的 付费 搜索 (paid search 或 sponsored search) 
模式 。 从 广告 的 视角 来 看 ， 也 可 以 把 付费 搜索 看 作 一 种 定向 广告 ， 即 根据 用 户 的 即 
时 兴趣 定向 投 送 的 广告 ， 而 即时 兴趣 的 标签 焉 是 天 键 词 。 很 显然 ， 这 种 定向 广告 从 
一 开始 残 直接 达到 了 非常 精准 的 程度 ， 也 融 很 自然 地 采用 了 竞价 的 方式 售卖 。 

搜索 广告 产生 了 巨大 的 收益 以 后 ， 搜 索引 擎 开始 考虑 将 这 样 的 变现 方式 推广 到 
其 他 互联 网 媒体 上 : 将 用 户 的 即时 兴趣 标签 由 搜索 词 换 成 正在 浏览 页 面 中 的 天 键 
词 ， 可 以 将 这 套 竞 价 广告 系统 从 搜索 结果 页 照搬 到 媒体 页 面 上 ， 这 融 产 生 了 上 下 又 
J & (contextual advertising ) 。 上 下 文 广告 的 初期 ， 创意 的 形式 也 是 与 搜索 


广告 一 样 的 文字 链接 。 许 多 产品 讨论 将 它 与 展示 广告 分 开 对 待 ， 不 过 当 我 们 把 它 与 
上 一 段 中 精细 化 定向 的 展示 广告 对 比 来 看 时 就 知道 ， 这 样 的 区 分 实际 上 没有 必要 , 
或 许 从 创意 形式 上 把 展示 广告 和 文字 链 广告 区 别 开 更 符合 分 类 的 逻辑 。 

从 宏观 市 场 上 看 ， 况 价 广告 与 合约 广告 有 很 大 的 不 同 。 没 有 了 合约 的 保证 ， 大 
量 的 广告 主 处 在 一 个 多 方 博弈 的 环境 中 。 与 直觉 不 同 的 是 ， 在 如 何 收取 广告 主 费 用 
这 一 点 上 ， 我 们 并 非 按照 微观 上 最 优 的 方案 实施 就 可 以 达到 整个 市 场 最 大 的 收益 。 
关于 定价 机 制 的 深入 研究 ， 产生 了 广义 第 二 高 价 (Generalized Second Price, 
GSP ) 这 一 竞价 重要 的 理论 。 

基于 竞价 机 制 和 精准 人 群 定向 这 两 个 核心 功能 ， 在 线 广告 分 化 出 了 广告 网 络 
(ad ”Network，ADN ) 这 种 新 的 市 场 形态 。 它 批量 地 运营 媒体 的 广告 位 资源 ， 按照 
人 和 群 或 上 下 文 标签 售卖 给 需求 方 ， 并 用 竞价 的 方式 决定 流量 分 配 。 广 告 网 络 的 结算 
以 按 点 击 付费 (Cost per Click, CPC) 的 方式 为 主 ， 这 一 点 有 数据 和 业务 方面 多 
层次 的 原因 ， 在 本 书 的 后 面 会 详细 探讨 。 虽 然 我 们 不 太 能 指 这 种 方式 的 干 次 展示 收 
fm (Revenue per Mille, RPM) 可 以 达到 合约 式 品牌 广告 的 水 平 ， 但 它 使 得 大 量 
中 小 互联 网 媒体 有 了 切实 可 行 的 变现 手段 : 这 些 媒体 有 一 定 的 流量 ， 但 还 不 值得 建 
立 自己 的 销售 团队 面向 品牌 广告 商 售卖 ， 直 接 把 自己 的 广告 库存 ( inventory ) 托 
管 给 ADN， 借 助 ADN 的 销售 和 代理 团队 为 自己 的 流量 变现 。 

ADN 既 然 只 通过 出 价 接口 提供 价格 约定 ， 那 么 由 谁 来 保证 量 呢 ? 自然 会 有 需求 方 
的 某 种 产品 来 完成 。 当 ADN 产 生 以 后 ， 代 理 公 司 当 然 也 要 对 广告 采 买 方式 做 出 调整 ， 
因为 此 时 的 流量 采 买 发 生 了 几 点 显著 变化 : 一 是 更 多 地 面向 受众 而 非 媒体 或 广告 位 
进行 采 买 ， 这 当然 是 与 受众 定向 的 流行 有 直接 关系 ;二 是 需求 方 的 代理 需要 采用 技 
术 的 手段 保证 广告 主 量 的 要 求 ， 并 在 此 基础 上 帮助 广告 主 优化 效果 。 这 又 是 一 个 与 
在 线 分 配 类 似 的 带 约束 优化 问题 。 但 是 实际 上 ， 这 个 问题 有 着 本 质 的 不 同 : 由 于 只 
能 在 ADN 定 义 好 的 定向 标签 组 合 上 预先 指定 出 价 ， 而 不 能 控制 每 一 次 展示 的 出 价 ， 


此 ， 市 场 看 起 来 像 一 个 黑 盒子 ， 需 求 方 只 能 靠 选择 合适 的 标签 组 合 以 及 阶段 性 调整 
出 价 来 间接 控制 效果 。 这 种 面向 多 个 ADN 或 媒体 按 人 群 一 站 式 采 买 广告 并 优化 投入 产 
出 比 的 需求 方 产 品 ， 我 们 称 为 交易 终端 ( Trading Desk, TD), 

在 ADN 中 ， 核 心 的 竞价 逻辑 是 封闭 的 ， 这 不 能 满足 需求 方 越 来 越 明 确 的 利益 要 
求 。 试 想 下 面 两 个 例子 : (1) 某 电子 商务 网 站 需要 通过 一 次 广告 投放 来 向 它 的 忠实 
用 户 推广 某 产品 ; (2) 某 银行 希望 通过 自己 的 信用 卡 用 户 在 网 络 上 找到 类 似 的 潜在 
用 户 群 ， 并 通过 广告 争取 这 批 潜在 用 户 。 很 显然 ,ADN ”很 难 直接 为 这 两 个 需求 提供 
人 和 群 标签 。 定 制 化 需求 催生 了 一 种 开放 的 竞价 逻辑 ， 让 需求 方 按 自 己 的 人 群 定义 来 
挑选 流量 ， 这 就 是 实时 竞价 (Real Time Bidding，RTB ) 。 它 是 将 拍卖 的 过 程 由 
广告 主 预先 出 价 ， 变 成 每 次 展示 时 实时 出 价 。 只 要 把 广告 展示 的 上 下 文 页 面 URL 以 及 
访客 的 用 户 标识 等 信息 传 给 需求 方 ， 它 就 有 充分 的 信息 来 完成 定制 化 的 人 群 选择 和 
出 价 。 于 是 ， 市 场 上 产生 了 大 量 聚 合 各 媒体 的 剩余 流量 并 采用 实时 竞价 方式 为 他 们 
变现 的 产品 形态 一 一 广告 交易 平台 (ad Exchange, ADX) 。 这 个 名 称 让 我 们 很 容 
易 联 想起 股票 交易 所 。 事 实 上 ， 如果 我 们 把 ADN 的 交易 方式 想象 成 场 外 交易 市 场 
(over-the-counter market ) ， 那 么 ADX 与 股票 交易 所 确实 有 着 类 似 的 作用 。 

通过 实时 竞价 的 方式 ， 按 照 定制 化 的 人 群 标签 购买 广告 ， 这 样 的 产品 就 是 需求 
方 平 台 (Demand Side Platform, DSP ) 。 由 于 实时 竞价 主要 采用 按 展 示 次 数 计 费 
的 方式 ( 本 书后 面部 分 会 具体 讨论 其 原因 ) ，DSP 需 要 尽 可 能 准确 地 估计 每 一 次 展示 
带 来 的 期 望 价值 。 在 这 一 点 上 ，DSP 比 TD 要 方便 多 了 ， 因 为 充分 的 环境 信息 使 得 深入 
的 计算 和 估计 成 为 可 能 。 基 于 DSP 的 广告 采 买 非常 类 似 于 股票 市 场 上 的 程序 交易 ， 我 
们 把 这 样 的 广告 采 买 方式 也 叫 作 程序 化 交易 ( programmatic trade). 。 除 了 RTB 以 
外 ， 还 有 其 他 几 种 程序 购买 的 交易 方式 ， 如 优选 (preferred deals ) 以 及 私有 交 
易 市 场 (Private Market Place, PMP) 等 。 可 以 预见 ， 在线 广告 中 程序 化 交易 的 
作用 和 地 位 将 会 不 断 加 强 ， 这 是 由 数字 广告 的 本 质 特 点 以 及 广告 主 利益 最 大 化 的 趋 





势 所 决定 的 。 

初次 接触 在 线 广告 的 读者 可 能 对 这 部 分 中 提 到 的 大 量 概 念 和 商业 逻辑 感到 无 所 
适 从 。 不 过 没关系 ， 上 面 所 有 用 楷体 字 标 出 的 关键 概念 在 本 书后 面 章节 出 现时 会 进 
行 详细 讨论 。 而 我 们 写 这 一 段 的 目的 也 仅 仪 是 让 大 家 对 本 书 讨 论 的 范畴 有 一 个 全 局 
性 的 认识 ， 从 而 在 后 面 章节 中 接触 到 某 个 具体 问题 时 不 会 只 见 树木 ， 不 见 和 森林 。 

由 于 在 线 广告 存在 着 较为 复杂 的 市 场 结构 ，LUMA Partners 对 北美 市 场 的 主要 
代表 公司 进行 非常 全 面 的 总 结 ， 并 绘制 成 了 图 1-9 中 的 “display LUMAscape” ™, 
这 一 图 谱 的 骨架 与 上 面 我 们 介绍 的 在 线 广告 简 史 有 着 非常 紧密 的 联系 ， 因 此 也 是 本 
书 在 广告 产品 方面 重要 的 提纲 。 基 本 上 可 以 说 ， 这 一 图 谱 是 从 两 端 向 中 间 逐 渐 发 展 
和 形成 的 : 首先 是 合约 阶段 ， 广 告 主 通过 代理 公司 从 媒体 方 采 买 广告 ， 而 媒体 方 的 
广告 投放 机 则 负责 完成 和 优化 各 个 广告 主 的 合约 ; 然后 ， 市 场 进化 出 了 竞价 售卖 方 
式 ， 从 而 在 靠近 供给 方 产生 了 ADN 这 样 的 产品 形态 ， 而 需求 方 的 代理 公司 为 了 适应 这 
一 市 场 变 化 ， 孵 化 除了 对 应 的 媒介 采 买 平台 (media buying platform) ; Ra, 
当 市 场 产生 了 实时 竞价 方式 交易 时 ， 供 给 方 进 化 出 了 ”ADX， 而 需求 方 则 需要 用 DSP 
与 其 对 接 来 出 价 和 投 送 广告 。 图 中 的 下 半 部 分 ， 多 是 一 些 对 这 一 骨干 市 场 结构 起 文 
持 作 用 的 产品 或 者 在 细 分 领域 的 特异 化 产品 。 我 们 在 后 面 介绍 到 相关 部 分 时 ， 将 会 
给 出 相应 的 介绍 。 
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图 1-9 LUMA 总 结 的 展示 广告 市 场 结构 和 代表 公司 图 谱 
图 1-9 中 的 个 别 术 语 与 本 书 略 有 区 别 ( 如 媒介 采 买 平台 ) ， 我 们 会 在 书 中 用 相近 

似 的 产品 概念 TD 来 代 蔡 ， 请 大 家 留意 。 
总 结 一 下 ， 在 在 线 广告 发 展 的 历史 上 ， 定 向 技术 和 交易 形式 的 进化 是 一 条 主 
线 。 从 最 初 的 固定 位 置 合约 交易 发 展 到 进行 受众 定向 、 按 展示 量 结算 的 合约 交易 ， 


再 到 况 价 交易 方式 ， 并 最 终 友 展 成 开放 的 实时 竞价 交易 市 场 。 这 条 主线 的 核心 驱动 
力 是 让 越 来 越 多 的 数据 源 为 广告 决策 提供 支持 ， 从 而 提升 广告 的 效果 。 除 了 这 条 交 
易 形 态 的 主线 ， 互 联网 广告 产品 还 有 另外 一 条 友 展 线路 ， 即 产品 展现 逻辑 上 的 友 
展 : 在 展示 广告 的 最 初 阶段 ,广告 位 作为 与 内 容 相对 独立 的 单元 来 决策 和 运营 ， 并 
且 完 全 以 优化 收入 为 目标 ; 但 同时 ， 人们 从 搜索 广告 和 社交 网 络 信息 流 广告 中 得 到 
了 局 友 一 一 将 内 容 与 广告 对 立 起 来 未 必 是 一 个 好 的 选择 。 搜 索 广 告 和 社区 网 络 信息 
流 广告 这 两 种 广告 产品 正 是 由 于 与 内 容 的 展现 和 触发 逻辑 有 着 高 度 的 一 致 性 ， 才 使 
得 它们 的 效果 突出 。 沿 着 这 样 的 思路 ， 将 内 容 与 广告 以 某 种 方式 统一 决策 或 排序 的 
广告 产品 一 一 原生 广告 (Native AD) 在 近年 来 得 到 了 工业 界 越 来 越 多 的 关注 。 如 
何 将 原生 的 决策 方式 与 前 面 介绍 的 广告 市 场 已 经 非常 成 熟 的 规模 化 交易 逻辑 相 结 合 
是 目前 互联 网 广告 产品 友 展 的 热点 。 需 要 特别 说 明 的 是 ， 原 生 广 告 的 思路 在 移动 设 
备 这 样 屏幕 尺寸 受 限 的 环境 下 将 会 成 为 一 个 非常 有 前 景 的 发 展 方向 ， 这 方面 的 进展 
我 们 将 在 第 7 章 中 具体 讨论 。 
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下 面 要 讨论 的 这 些 泛 广 告 商业 产品 的 本 质 都 是 付费 推广 。 虽 然 这 些 付费 推广 模 
陈 的 表现 方式 更 加 多 样 化 ， 用 户 的 感知 程度 和 参与 程度 也 大 不 相同 ， 但 是 产品 和 销 
售 模式 却 与 狭义 广告 基本 相同 。 和 希望 读者 在 看 完 此 书 以 后 ， 能 够 认识 到 这 些 商业 产 
品 本 质 上 也 是 在 线 广告 ， 能 够 以 统一 的 视角 来 理解 和 规划 这 些 变 现 方式 。 


必胜客 


VS IT 


f: IQ ad yt 


【81 店 通用 】 必 胜 客 


OTRS, TENERS 00 元 心意 美食 卡 1 张 ， SHR, TEMEA 


【4 店 通用 HARSH 





v 80 | Eth 190 v 91 ] 店 价 190 





图 1-16 团购 产品 示例 

(1) 团购 。 团 购 本 质 上 是 一 种 按照 效果 付费 的 泛 广告 产品 ， 其 特殊 性 在 于 广告 
主 除 了 付 推 广 费 用 外 ， 还 向 用 尸 让 利 以 获得 转化 。 团 购 推 广 的 主要 广告 主 是 一 些 本 
地 化 的 店铺 ， 主 要 目的 是 为 了 获得 新 客户 。 如 图 1-16 所 示 ， 对 团购 平台 来 说 ， 团购 
商品 在 一 定 环境 下 的 排序 与 广告 是 一 样 的 问题 。 不 过 团购 销售 很 少 采 用 竞价 的 方 
式 ， 而 多 是 预先 约定 价格 。 另 外 ， 团 购 的 广告 库 中 是 付费 信息 而 非 创意 ， 这 有 利于 
发 展 原生 广告 的 推广 方式 ， 参 见 第 7 章 。 

( 2) 游戏 联运 。 游 戏 联 运 根据 用 户 的 最 终 游戏 内 消费 在 推广 渠道 和 游戏 开发 商 
之 间 分 成 的 商业 产品 ， 这 仍然 是 一 种 按 效 果 付 费 的 泛 广告 产品 。 在 页 游 和 手 游 的 推 
广 中 ， 联 运 是 一 种 非常 常见 的 友 行 模式 ， 读 者 在 各 种 产品 中 看 到 的 图 1-11 所 示 的 洲 
戏 下 载 专区 ， 其 背后 的 商业 模式 往往 都 是 联运 。 实 际 上 ， 在 中 国 的 各 大 Android 应 
用 市 场 中 ， 游 戏 联运 的 收入 远 远 超过 其 他 类 型 的 广告 收入 。 如 果 将 联运 收入 也 算 人 在 
广告 收入 中 的 话 ， 互 联网 总 体 收 入 的 广告 占 比 还 会 提高 不 少 。 不 同 的 联运 渠道 分 成 


比例 可 能 相差 很 大 ， 经 过 我 们 调研 ， 在 Apple — StoreixTÉBRAUBSES/MrBbHR , 2R 
的 分 成 比例 一 般 为 36%， 但 是 在 中 国 ， 有 些 强势 的 联运 渠道 分 成 比例 甚至 可 以 达到 
96% 以 上 。 游 戏 联运 也 完全 可 以 按照 广告 产品 思路 来 设计 和 运营 ， 另外 其 广告 库 同 样 
具有 易于 原生 化 的 特点 。 
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图 1-11 游戏 联运 产品 示例 

(3) 固定 位 导航 。 这 主要 包括 网 址 导航 站 的 位 置 入 口 ( 如 图 1-12 所 示 ) 、 应 用 
分 友 平 台 的 推荐 位 置 等 付费 推广 位 置 。 一 般 来 说 ， 这 种 产品 的 销售 都 采用 按时 间 付 
费 的 固定 位 模式 ， 而 不 是 动态 的 竞价 决策 模式 。 这 是 因为 广告 主 除 了 引流 以 外 ， 往 
往 更 加 关注 这 些 入 口 位 置 的 柚 窗 效应 。 这 种 广告 的 销售 和 运营 模式 与 按 天 购买 的 合 
约 广告 相同 。 

( 4) 返利 购买 。 返 利 购 买 是 电 商 行业 常见 的 一 种 推广 模式 ， 它 与 团购 有 些 类 
似 ， 也 是 采用 折扣 或 积分 的 方式 激励 用 户 购买 。 显 然 ， 这 种 方式 可 以 获得 非常 高 的 
ROI， 但 是 也 会 市 来 一 些 老 用 己 转 而 由 返利 网 下 单 ， 因 此 实际 的 效果 远 没有 那么 好 ， 
特别 是 在 获取 新 客户 方面 的 价值 值得 考量 。 

需要 特别 说 明 ， 当 一 个 公司 同时 运营 普通 广告 和 上 述 一 种 或 多 种 泛 广 告 


时 ， 它们 之 间 甚 至 是 和 用 户 产品 之 间 ， 经 常会 出 现 争 夺 广告 位 或 其 他 入 口 资源 的 问 
题 。 面 对 这 样 的 问题 ， 最 合理 的 分 配方 式 是 通过 它们 之 间 的 竞价 来 决策 ， 这 是 非常 
重要 的 内 部 流量 货币 化 的 运营 理念 。 
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图 1-12 网 址 导航 产品 示例 
1.6 延伸 思考 


1. 考 虑 到 品牌 广告 和 直接 效果 广告 的 目的 性 差异 ， 两 者 在 创意 设计 、 投 放 策 
略 、 媒 介 选 择 等 方面 应 该 有 什么 区 别 ? 

2 .请 你 从 自己 熟悉 的 领域 中 找 出 几 个 泛 广告 产品 的 例子 ， 并 探讨 其 与 典型 广告 
产品 的 区 别 。 
本 书 由 [ePUBw.COM| 整理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
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B25 计算 广告 基础 


从 现在 开始 ， 我 们 开始 接触 在 线 广 告 中 与 “计算 ”有 关 的 问题 。 在 线 广 告 中 计 
算 到 底 是 为 了 解决 什么 问题 ， 以 及 解决 这 些 问 题 需要 什么 样 的 业务 描述 框架 ， 将 是 
本 章 重 点 关注 的 内 容 。 

我 们 将 先 对 传统 广告 中 发 展 起 来 的 广告 有 效 性 理论 做 简要 的 回顾 。 通 过 把 广告 
产生 效果 的 过 程 分 解 为 若干 阶段 ， 并 讨论 其 中 各 阶段 天 键 的 影响 因素 ， 可 以 对 在 线 
广告 情形 下 受众 定向 、 创 意 优化 及 其 他 有 价值 的 技术 点 有 感性 认识 。 虽 然 这 部 分 与 
具体 的 计算 技术 无 关 ， 却 对 计算 广告 中 的 一 些 根 本 原理 有 深入 的 揭示 ， 和 希望 读者 有 
所 了 解 。 

在 互联 网 广告 中 ， 计 算 之 所 以 可 以 发挥 巨大 的 作用 ， 与 它 的 一 些 根本 技术 特点 
有 很 大 关系 ， 这 是 本 章 的 出 发 点 。 总 的 来 说 ， 可 衡量 的 效果 以 及 相应 的 计算 优化 是 
在 线 广告 区 别 于 线 下 广告 的 主要 特点 。 在 这 些 特色 的 基础 上 ， 我 们 对 Andrei 
Broder 提 出 的 计算 广告 核心 挑战 稍 做 推广 ， 得 到 贯穿 本 书 的 计算 广告 核心 问题 ， 即 
利润 优化 问题 的 概念 性 框架 。 

在 大 多 数 广告 产品 中 ， 可 以 通过 计算 优化 的 主要 是 收入 部 分 。 而 干 次 展示 期 望 
收入 (expected Cost Per Mille, eCPM) 正 是 计算 广告 中 最 为 核心 的 量化 指标 
之 一 。 与 广告 的 信息 传达 过 程 相关 ，eCPM 又 可 以 分 解 为 点 击 率 和 点 击 价值 的 乘积 ， 
这 两 个 指标 是 各 种 广告 产品 在 计算 过 程 中 经 常 碰 到 的 ， 也 是 产品 运营 需要 深入 理解 
和 重点 关注 的 。 

同时 ， 这 样 的 收入 分 解 方法 还 对 在 线 广告 产品 市 场 结构 和 计 费 方式 的 理解 很 有 
帮助 。 大 家 将 会 看 到 ， 在 线 广告 多 种 多 样 的 计 费 方式 实际 上 上 反映 着 市 场 结构 的 分 工 
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资源 优化 配置 有 关 。 对 若干 常见 计 费 方式 的 深入 理解 ， 对 于 把 握 计算 广告 领域 的 核 
心 问题 ， 以 及 评估 每 个 问题 在 特定 情形 下 的 难度 有 很 重要 的 指导 意义 。 

本 章 的 最 后 ， 还 介绍 了 若干 广告 和 在 线 广告 领域 中 重要 的 行业 协会 。 了 解 这 些 
协会 在 广告 业务 中 代表 的 利益 方 以 及 他 们 对 整个 在 线 广告 市 场 产品 和 技术 形态 的 推 
动作 用 ， 对 于 有 志 从 事 广告 技术 和 业务 的 读者 来 说 也 是 必要 的 。 


2.1 广告 和 有效 ' Í 


为 了 探讨 用 技术 手段 优化 广告 投放 效果 ， 我 们 先 看 看 广告 从 产生 用 户 接触 开始 
是 如 何 产 生 最 终 效 果 的 。 这 一 问题 是 广告 领域 一 个 传统 重要 的 研究 课题 ， 我 们 直接 
借鉴 了 前 人 的 研究 成 果 ， 按 照 方便 计算 广告 讨论 的 原则 ， 用 一 个 三 段 式 信息 传播 模 
型 来 解剖 广告 由 物理 上 产生 到 最 终 产 生 转 化 行为 的 全 过 程 ， 这 一 模型 如 图 2-1 所 示 。 

图 2-1 ”所 示 这 一 有 效 性 模型 把 广告 的 信息 接收 过 程 分 为 选择 ( selection). 
解释 ( interpretation) 与 态度 (attitude ) 三 个 大 阶段 ， 或 者 进一步 分 解 为 曝 
36 (exposure), ZXik(attention), 、 理 解 ( comprehension) 、 接 受 
( acceptence ) 、 保 持 (retention) 与 决策 (decision) ”6 个 子 阶 段 。 下 面 我 
们 分 别 来 讨论 每 个 阶段 的 意义 和 天 键 点 。 





图 2-1 广告 效果 产生 过 程 示 意 
(1) 曝光 (exposure ) 阶段 。 这 一 阶段 措 的 是 广告 物理 上 展现 出 来 的 过 程 , 
此 阶段 的 有 效 程 度 往往 与 广告 位 的 物理 属性 有 关 ， 并 没有 太 多 可 以 通过 技术 优化 的 


空间 。 实 际 的 广告 实践 中 ， 曝 光 的 有 效 性 对 最 终结 果 的 影响 往往 远 远 高 于 其 他 技术 
性 因素 ， 所 以 才 会 有 传统 广告 中 “位 置 为 王 ” 的 说 法 。 像 纽约 时 代 广 场 那 组 著名 的 
广告 牌 ( 见 图 2-2 中 左 图 ) 以 及 北京 东 三 环北 端 东 信 大 厦 外 立 面 上 对 着 东 三 环北 路 的 
广告 牌 ( 见 图 2-2 中 右 图 ) 殊 有 非常 好 的 曝光 效果 。 在 互联 网 广告 中 ， 位 置 的 影响 有 
时 会 更 加 显著 ， 因 此 如 何 从 算法 上 消除 由 此 带 来 的 点 击 率 预 估 偏 差 ， 是 一 个 非常 重 
要 的 实际 问题 。 





图 2- 2 曝光 效果 突出 的 广告 位 示例 ( 左 : 纽约 时 代 广 场 A : 北京 东 三 环 京 信 大 
厦 ) 

(2) 关注 ( attention) 阶段 。 这 一 阶段 指 的 是 受众 从 物理 上 接触 到 广告 到 意 

识 上 注意 到 它 的 过 程 。 对 广告 而 言 ， 曝 光 并 不 一 定 意味 着 天 注 。 举 个 例子 ， 有 一 天 

我 的 一 位 好 友 在 浏览 社区 网 站 时 ， 他 的 小 儿子 在 旁边 喊 道 : “和 爸爸 ， 快 看 网 页 上 的 

恐龙 ! ”而 这 位 朋友 找 了 一 分 多 钟 都 没有 找到 芍 龙 。 实 际 上 ， 双龙 束 在 网 页 上 端 最 

醒目 的 广告 位 上 。 这 个 例子 说 明 ， 强 曝光 并 不 能 等 同 于 用 户 实际 有 效 的 关注 。 那 么 


如 何 使 得 天 注 阶 段 的 效率 提高 呢 ? 有 几 个 重要 的 原则 。 首 先 ， 尽 量 不 要 打 断 用 户 的 
任务 。 这 一 点 是 上 下 文 相关 的 广告 投 送 的 原理 基础 ， 也 是 当今 讨论 原生 广告 产品 的 
出 友 后 之 一 。 上 面 的 例子 也 可 以 用 这 个 原则 来 解释 ， 当 用 户 明 确 辨 识 出 某 个 固定 不 
变 的 广告 位 ， 并 且 不 再 认为 它 与 自己 当 浏览 网 页 的 任务 有 关联 时 ， 他 会 下 意识 地 屏 
澈 其 中 的 内 容 。 其 次 ， 明 确 传达 向 用 户 推 送 此 广告 的 原因 ， 这 一 点 是 受众 定 同 广告 
创意 优化 的 重要 方向 。 另 外 ， 内 容 符合 用 户 的 兴趣 或 需求 ， 这 是 行为 定向 的 原理 基 
础 。 

( 3) 理解 ( comprehension) 阶段 。 用 户 关 注 到 了 广告 的 内 容 也 并 不 意味 着 他 
一 定 能 够 理解 三 告 传达 的 信息 。 再 举 一 个 例子 ， 笔 者 有 一 次 试 玩 了 一 款 网 页 游戏 ， 
然后 被 某 游 戏 广告 定 同 到 ， 并 多 次 看 到 某 宣 传 “ 四 维 城 战 新 模式 ”的 游戏 广告 。 应 
该 说 这 样 的 定向 是 精准 的 ， 我 也 非常 认真 地 关注 了 广告 的 内 容 ， 不 过 这 些 内 容 我 确 
实 不 能 直观 理解 ， 也 就 谈 不 上 后 续 的 转化 。 理 解 阶 段 有 哪些 原则 呢 ? 首先， 广告 内 
容 要 在 用 户 能 理解 的 具体 兴趣 范围 内 ， 这 说 明了 真正 精准 的 受众 定向 有 多 么 必要 。 
其 次 ， 要 注意 设 定 与 关注 程度 相 匹 配 的 理解 门槛 。 例 如 ， 在 电视 广告 中 ， 可 以 用 有 
一 定 情节 的 短 故事 来 宣传 品牌 ; 在 路 牌 广告 中 ， 创 意 制 作 原则 是 将 若干 主要 市 场 诉 
求 都 表达 出 来 ; 而 对 于 互联 网 广告 ， 由 于 用 户 的 关注 程度 非常 低 ， 我 们 应 该 集中 强 
调 一 个 主要 诉求 以 吸引 用 户 的 注意 力 。 

(4) 接受 (acceptance ) 阶段 。 受 众 理解 了 广告 传达 的 信息 ， 并 不 一 定 表示 
他 认可 这 些 信息 。 广 告 领域 有 一 句 名 言 : “我 知道 有 一 半 的 广告 预算 浪费 了 。” 实 
际 的 情况 还 有 可 能 更 糟 ， 如 果 表 达 的 信息 不 适当 ， 甚 至 有 可 能 有 三 分 之 一 的 广告 展 
示 起 到 负面 效果 | 在 使 用 幽默 、 性 感 这 样 非常 规 的 广告 手段 时 ， 要 特别 注意 这 一 
扩 。 广 告 的 上 下 文 环境 对 于 广告 的 接受 程度 有 着 很 大 的 影响 ， 同 一 个 品牌 广告 出 现 
在 某 游戏 社区 上 和 门户 网 站 首页 上 ， 用 户 会 倾向 于 认为 后 者 更 具 说 服 力 ， 这 也 残 是 
优质 媒体 的 品牌 价值 。 在 定 同 广告 越 来 越 普遍 的 今天 ， 如 何 让 合适 的 广告 出 现在 合 


适 的 媒体 上 ， 即 广告 安全 (ad safety ) 的 问题 ， 正 在 引起 大 家 越 来 越 多 的 关注 。 

( 5) 保持 ( retention) 阶段 。 对 于 不 仅仅 追求 短期 转化 的 广告 商 ， 当 然 希望 
广告 传达 的 信息 给 用 户 留 下 长 久 的 记忆 ， 以 影响 他 长 时 间 的 选择 ， 因 此 品牌 广告 商 
在 创意 设计 上 人 花 了 大 量 的 精力 提高 此 阶段 效果 。 我 们 想 想 那些 充满 艺术 性 或 浪漫 气 
质 的 电视 汽车 广告 ， 可 以 对 此 有 直观 的 认识 。 

(6 ) 决策 (decision) 阶段 。 成 功 广告 的 最 终 作 用 是 带 来 用 户 的 转化 行为 ， 
虽然 这 一 阶段 已 经 离开 了 广告 的 业务 范围 ， 但 好 的 广告 还 是 能 够 为 转化 率 的 提高 做 
好 铺垫 。 特 别 是 对 于 电 商 或 团购 业务 ， 在 创意 上 强调 哪些 信息 以 打动 那些 价格 敏感 
的 消费 者 是 有 相当 的 学 问 的 。 

定性 地 说 ， 越 靠 前 的 阶段 ， 其 效果 的 改善 对 点 击 率 的 贡献 越 大 ; 而 越 靠 后 的 阶 
段 ， 其 效果 的 改善 对 转化 率 的 贡献 越 大 。 但 是 以 上 各 个 阶段 的 划分 绝 非 孤 立 的 和 绝 
对 的 ， 而 某 一 项 具体 的 广告 策略 或 技术 也 往往 会 对 几 个 阶段 的 效果 同时 发 生 影响 。 
昌 然 这 样 的 有 关 广 告 有 效 性 模型 的 讨论 多 见于 传统 广告 的 研究 中 ， 然 而 其 规律 显然 
也 对 在 线 广告 的 产品 方向 有 很 强 的 指导 作用 。 


2.2 BE 告 的 技术 特点 


从 前 面 的 讨论 中 ， 大 家 一 定 已 经 友 现 了 不 少 在 线 广告 不 同 于 传统 广告 的 特点。 
在 这 些 不 同 点 当中 ， 有 一 些 对 我 们 正确 理解 在 线 广告 市 场 并 探究 合适 的 效果 优化 方 
案 有 着 非常 重要 的 指导 意义 。 

(1) 技术 和 计算 导向 。 数 字 媒 体 的 特点 使 在 线 广告 可 以 进行 精细 的 受众 定向 ， 
而 技术 又 使 得 广告 决策 和 交易 朝 着 计算 驱动 的 方 同 友 展 。 实 际 上 ， 受 众 定 同 这 一 思 
想 在 线 下 广告 中 也 曾经 被 尝试 过 ， 比 如 试图 把 信用 卡 纸 质 账单 背面 的 广告 按照 信用 
卡 用 尸 的 年 龄 和 性 别 做 一 些 定 制 化 ， 不 过 由 于 非 数字 的 媒体 上 这 么 做 的 成 本 太 高 ， 
因而 无 法 规模 化 。 在 数字 媒体 上 进行 受众 定向 ， 其 成 本 可 以 控制 得 非常 低 ， 这 也 和 直 


接 催生 了 在 线 广告 的 计算 革命 。 除 了 受众 定向 ， 由 于 在 线 广告 存在 着 独特 的 况 价 交 
吻 方 式 ， 因 而 广告 效果 精确 的 预 估 和 优化 能 力也 是 非 囊 重要 的 。 

(2) 效果 的 可 衡量 性 。 在 线 广告 刚刚 产生 之 时 ， 大 家 对 这 种 广告 最 多 的 称道 之 
处 是 它 可 以 以 展示 和 点 击 日 志 的 形式 直接 记录 广告 效果 ， 并 且 可 以 利用 这 些 日 志 优 
化 广告 效果 。 不 过 ， 操 击 率 这 一 指标 从 是 否 在 绝对 意义 上 能 够 反映 广告 效果 是 值得 
探讨 的 。 从 1998 年 到 今天 ， 横 幅 展示 广告 的 点 击 率 从 16% 一 路 降 至 9.1%， 难 道 这 说 
明 广告 的 效果 下 降 了 两 个 数量 级 吗 ? 快速 增长 的 市 场 规模 显然 给 出 了 否定 的 回答 。 
我 们 认为 ， 在 不 同 的 产品 或 时 代 中 ， 扣 击 率 绝 对 值 的 比较 并 没有 那么 重要 ， 而 在 一 
个 特定 时 期 不 同 广 告 和 算法 表现 出 来 的 差异 才 是 更 有 意义 的 。 从 这 一 点 来 看 ， 可 稀 
量 性 仍然 可 以 认为 是 在 线 广告 的 一 个 重要 特点 。 

(3) 创意 和 投放 方式 的 标准 化 。 标 准 化 的 驱动 力 来 目 于 受众 定向 与 程序 购买 。 
既然 需求 方 天 心 的 是 人 群 而 非 广 告 位 ， 创 意 尺 十 的 统一 化 与 一 些 天 键 接口 的 标准 化 
非 名 天 键 。 这 些 接口 标准 中 ， 比 较 典 型 的 有 视频 广告 的 VAST 标准 “和 实时 竞价 的 
OpenRTB ”标准 "和 等。 实践 表明 ,有 越 来 越 多 的 广告 产品 和 平台 愿意 根据 这 些 市 场 标 
准 来 设计 自己 的 规范 和 接口 ， 因 为 这 样 大 家 可 以 充分 利用 整个 市 场 的 流动 性 ， STR 
地 创造 更 多 的 价值 。 

(4) 媒体 概念 的 多 样 化 。 随 着 Web ” 2.6 和 移动 互联 的 普及 ， 赋 予 了 更 多 交互 功 
能 的 互联 网 媒体 与 线 下 媒体 有 已 经 有 了 本 质 差别 。 随 着 交互 功能 的 不 同 ， 这 些 媒体 
与 转化 行为 的 距离 也 融 不 同 。 举 个 例子 ， 对 在 线 购物 行业 而 言 ， 门 户 网 站 、 垂 直 网 
站 、 搜 索引 擎 、 电 商 网 站 、 返 利 网 ， 在 转化 链条 上 一 个 比 一 个 更 靠近 购买 行为 。 我 
们 从 直觉 上 就 可 以 知道 ， 越 接近 转化 的 媒体 上 的 广告 带 来 的 流量 一 定 可 以 达到 越 高 
的 ROI ,不 过 离 “3 引 导 潜 在 用 户 ” 这 样 的 广告 目的 也 残 越 远 。 因 此 我 们 在 从 需求 方 看 
在 线 广 告 时 ， 应 该 注重 各 种 性 质 媒 体 的 配合 关系 ， 并 从 整合 营销 的 角度 去 审视 和 优 
化 整体 的 效果 。 试 想 ， 如 果 一 家 电 商 只 用 返利 网 作为 线 上 广告 渠道 ，ROI 一 定 可 以 做 


到 很 高 ， 可 是 这 样 的 营销 能 给 他 带 来 大 量 潜在 用 户 吗 ? 6 

(5) 数据 驱动 的 投放 决策 。 与 工业 革命 时 期 机 器 化 的 根本 驱动 力 一 一 电力 相 类 
比 ， 互 联网 化 的 根本 驱动 力 可 以 认为 是 数据 的 深入 加 工 和 利用 。 这 一 点 在 大 数据 概 
念 被 广泛 认 知 的 今天 已 经 成 为 老生 常 谈 。 前 面 提 到 的 在 线 广告 的 计算 技术 在 很 大 程 
度 上 也 要 依赖 于 对 于 数据 的 大 规模 利用 。 广 泛 收 集 用 户 的 行为 数据 和 广告 反馈 数 
据 ，, 利用 云 计 算 的 基础 设施 对 用 尸 打上 合适 的 标签 ， 同 样 根据 数据 在 多 个 广告 竞争 
同一 次 展示 时 作出 决策 ， 再 将 投放 的 结果 统计 数据 反馈 给 广告 操作 人 员 以 调整 投放 
策略 ， 这 已 经 成 为 在 线 广告 的 基本 投放 逻辑 。 因 此 可 以 认为 ， 现 代 的 在 线 广告 系统 
殉 是 一 个 大 数据 处 理 平 台 ， 而 且 其 对 数据 处 理 的 规模 和 啊 应 速度 的 要 求 都 相当 局 。 
可 以 说 ， 从 来 没有 任何 传统 广告 形式 像 在 线 广告 那样 ， 需 要 大 规模 地 收集 并 利用 数 
ja , 而 这 正 是 在 线 广 告 最 吸引 人 之 处 。 


2.3 计算 广告 的 核心 问题 


Andrei ”Broder 在 提出 计算 广告 这 一 概念 的 同时 也 给 出 了 该 课题 的 核心 研究 挑 
战 ( 注意 是 “核心 挑战 ”而 非 “ 定 义 ” ) 。 对 于 这 一 核心 挑战 ， 他 的 表述 是 “Find 
the best match between a given user in a given context and a 
suitable advertisement”m。 我 们 结合 近年 来 市 场 的 友 展 以 及 实际 业务 中 的 一 些 
体会 ， 对 此 表述 稍 作 加 工 ， 给 出 如 下 计算 广告 的 核心 问题 : 

计算 广告 的 核心 问题 ， 是 为 一 系列 用 己 与 环境 的 组 合 找到 最 合适 的 广告 投放 策 
略 以 优化 整体 广告 活动 的 利润 。 

与 Andrei Broder 的 表述 相 比较 ， 我 们 主要 进行 的 两 方面 的 微调 。 首 先 ， 强 调 

告 问题 优化 的 是 一 组 展示 上 的 效果 ， 而 非 珀 立 的 某 一 次 展示 上 的 效果 。 这 是 由 于 
告 活动 中 普遍 存在 着 量 的 约束 ， 在 这 一 约束 下 进行 利润 优化 ， 其 最 优 解 往往 与 每 
次 展示 独立 决策 时 有 很 大 的 不 同 。 其 次 ， 描 述 中 去 挥 了 “given” 的 字眼 。 这 是 由 于 


在 某 些 广告 产品 中 ， 系 统 并 不 一 定 能 拿 到 确定 的 用 户 或 上 下 文 唯一 标识 ， 但 这 并 不 
意味 着 完全 无 法 进行 计算 优化 。 同 样 地 ,我们 也 强调 优化 的 结果 是 “广告 投放 策 
上 略 ” 而 不 一 定 是 具体 的 广告 ， 这 也 是 因为 有 些 产 品 的 策略 并 不 是 直接 决定 最 后 的 展 
。 相 信 读 完 本 书后 面 的 部 分 ， 大 家 就 能 更 深入 地 体会 这 些 调整 的 原因 。 

上 面 的 计算 广告 核心 挑战 需要 转化 为 数学 上 可 以 优化 的 目标 才能 利用 计算 技术 
来 解决 。 把 它 用 下 面 的 最 优化 问题 来 表达 : 


T 
max 2 us — qi) (2.1) 


Zh 


这 里 的 i 代 表 从 第 1 次 到 第 T 次 之 间 的 某 一 次 广告 展示 。 我 们 优化 的 目标 就 是 在 这 
T 次 展示 上 的 总 收入 (r) 与 总 成 本 ( q ) 的 差 ， 即 广告 活动 的 利润 。 当 某 次 广告 活动 


T 
的 预算 一 定 ， p% i=1 di 是 一 个 常数 时 ， 很 容易 验证 优化 公式 2 .1 与 优化 另 一 个 广 


告 中 更 常见 的 目标 投入 产 出 比 ， 即 ROI- Č rif Lei Ving 
收入 与 成 本 具体 依赖 的 因素 ， 上面 的 优化 问题 可 以 写成 
T: 


max P Vrai, uis Ci) — q(a;, ui, ci)] (2.2) 
= 


83. 2p 

表达 式 中 的 a、u、c 三 个 变量 ， 分 别 代 表 广 告 、 用 己 与 环境 ， 即 广告 活动 的 三 个 
参与 主体 ， 显然 ， 广 告 展 示 的 收入 或 成 本 与 这 三 个 因素 都 有 关系 。 实 际 上 ， 对 除了 
DSP 以 外 的 大 多 数 广告 产品 来 说 ， 要 么 是 自 营 或 包 汤 人 资 源 ， 要么 按 以 收 定 支 的 万 式 与 
媒体 分 成 ， 其 成 本 也 对 应 为 常数 或 正比 于 收入 ， 在 这 种 情形 下 ， 成 本 部 分 可 以 从 上 
面 的 优化 公式 中 去 挥 。 

注意 ， 这 里 有 一 个 隐 含 的 假设 ， 即 整体 的 收入 或 成 本 可 以 被 分 解 到 每 次 展示 
上 。 显 然 ， 这 一 假设 并 不 是 十 分 合理 的 ， 但 是 考虑 到 实际 线 上 决策 上 时， 必须 对 每 次 
展示 马上 完成 计算 ， 所 以 ， 从 实用 出 友 我 们 仍然 采用 这 一 假设 。 在 实际 的 系统 中 会 


是 一 致 的。 进一步 考虑 


采用 频次 控制 、 点 击 有 反馈 等 方法 来 对 付 多 次 展示 之 间 效 果 相关 性 的 间 题 。 

在 具体 的 广告 产品 中 ， 优 化 公式 2.2 可 能 会 省 略 挥 一 些 内 容 或 参数 ， 或 者 增加 一 
些 约束 条 件 ， 构 成 该 广告 产品 独特 的 优化 问题 。 在 后 面 我 们 谈 到 若干 广告 产品 的 天 
键 技术 时 ， 也 会 给 出 其 具体 形式 。 


2 JR 


下 面 ， 我 们 再 来 进一步 分 解 广告 收入 ， 以 便 引 出 关于 在 线 广告 市 场 计 费 方式 的 
重要 分 析 。 对 一 个 广告 市 场 中 具体 的 产品 形态 ， 我 们 往往 能 够 主动 优化 的 是 收入 而 
非 成 本 ， 因 此 ， 可 以 主要 关注 收入 优化 的 部 分 。 在 一 次 广告 展示 产生 后 ， 有 可 能 发 
生 哪 些 后 续 行 为 呢 ? 参见 图 2-3 : 当 用 户 在 媒体 页 面 的 广告 位 上 看 到 广告 以 后 ， 如 果 
产生 兴趣 ， 首 先 产 生 的 是 点 击 行为 ， 广 告 点 击 与 广告 展现 的 比率 称 为 点 击 率 ( Click 
Through Rate, CTR) ; 点 击 行为 成 功 以 后 ， 将 会 打开 广告 主 的 落地 页 (landing 
page) ， 沙 地 页 成 功 打开 次 数 与 点 击 次 数 的 比例 称 为 到 达 率 ， 这 是 在 广告 主 网 站 上 
AEA ; 如 果 用 户 从 落地 页 开始 ， 进 一 步 完 成 下 单 等 操作 ， 则 称 为 转化 ， 转 化 次 数 
与 到 达 次 数 的 比例 称 为 转化 率 ( Conversion Rate, CVR) ， 这 是 在 广告 主 网 站 上 
或 线 下 友 生 的 ，。 
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媒体 “ 告 主 网 站 


图 2-3 在 线 广告 产生 效果 的 步骤 

按照 媒体 网 站 和 广告 主 网 站 上 的 行为 段 对 回报 r 进行 分 解 ， 是 实践 中 比较 合理 
且 容 易 操 作 的 方式 : 
eCPM = r(a,u,c) = p(a,u,c) - v(a, u,c) (2.3) 

在 后 文中 ， 我 们 都 沿用 这 样 的 符号 表示 : 用 h 表 示 点 击 率 ， 用 v 表 示 点 击 价值 
(click value) ， 即 单 次 点 击 为 广告 产品 带 来 的 收益 。 其 中 前 一 部 分 描述 的 是 发 
生 在 媒体 上 的 行为 ， 后 一 部 分 描述 的 是 发 生 在 广告 主 网 站 上 的 行为 。 而 这 两 部 分 的 
乘积 定量 地 表示 了 某 次 或 各 干 次 展示 的 期 望 ”CPM 值 ， 就 是 我 们 前 面 提 到 的 eCPMo。 
请 大 家 特别 关注 ecPM 这 个 指标 ， 因 为 它 是 计算 广告 中 最 常 被 提 及 ， 也 是 最 关键 的 定 
量 评估 收益 的 指标 ， 本 书 的 计算 问题 大 都 是 围绕 它 展开 的 。 在 对 多 个 检索 候选 进行 
排序 时 ， 是 根据 eCPM 还 是 CTR 排序 也 是 区 别 广告 产品 和 用 户 产品 的 重要 策略 特 
征 。 进 一 步 ， 如 果 我 们 将 所 有 的 点 击 价值 都 等 同 起 来 ， 那 么 根据 ecPM 排 序 和 根据 
CTR 排 序 实际 上 将 得 到 一 样 的 结果 。 因 此 ， 可 以 认为 根据 ”CTR 排 序 是 根据 eCPM 排序 
的 一 种 特例 ， 这 也 使 得 将 内 容 与 广告 统一 排序 的 原生 广告 成 为 可 能 。 


eCPM 一 般 指 的 是 估计 的 干 次 展示 收益 ， 它 有 两 个 很 相近 的 概念 : 如 果 讨 论 的 是 
干 次 展示 收入 ， 往 往 用 RPM ; 如 果 讨 论 的 是 干 次 展示 成 本 ， 往 往 用 CPM。 这 三 个 术语 
有 时 在 实用 中 的 区 别 并 不 明显 ， 请 大 家 注意 。 

根据 图 2-3 ”所 示 的 流程 ， 点 击 价 值 还 可 以 进一步 分 解 为 到 达 率 、 转 化 率 和 客 单 
价 的 乘积 。 由 于 这 部 分 的 深入 解剖 与 行业 密切 相关 ， 而 且 更 多 地 属于 站 内 运 草 而 非 
广告 的 荡 畴 ， 因 此 在 本 书 中 将 只 在 14.2.3 节 进行 简要 的 讨论 。 

2.3.2 结算 方式 与 eCPM 估计 的 关系 

对 于 大 多 数 广告 产品 来 说 ， 需 要 计算 给 定 ( a,，u,c ) 三 元 组 的 eCPM 以 进行 决 
策 。 可 是 由 于 广告 市 场 的 协作 关系 复杂 ， 并 非 每 个 广告 产品 都 可 以 对 eCPM 中 的 两 个 
步骤 做 出 较 准 确 的 估计 。 根 据 eCPM 的 分 解决 定 哪 部 分 由 谁 来 估计 是 广告 市 场 各 种 计 
费 模 式 产 生 的 根本 原因 ， 也 是 广告 市 场 中 商业 逻辑 与 产品 架构 衔接 的 天 键 一 环 。 下 
面 ， 我 们 来 逐一 分 析 下 市 场 上 主要 的 几 种 广告 计 费 模式 。 

(1) CPM 结 算 ， 即 按照 干 次 展示 结算 。 这 种 方式 是 供给 方 与 需求 方 约定 好 干 次 
展示 的 计 费 标准 ， 至 于 这 些 展示 是 否 能 够 市 来 相应 的 收益 ， 由 需求 方 来 估计 和 控制 
其 中 的 风险 。 对 于 品牌 广告 ， 由 于 目标 是 较 长 时 期 内 的 利益 ， 很 难 通过 对 短期 数据 
进行 分 析 的 方式 直接 计算 点 击 价值 ， 而 点 击 率 也 因为 对 于 用 户 接触 的 核心 要 求 变 得 
不 是 唯一 重要 的 因素 。 在 这 种 情况 下 ， 由 需求 方 根据 其 市 场 策 略 与 预算 控制 流量 的 
单价 并 按 CPM 方式 结算 是 比较 合理 的 交易 模式 。 实 际 上 ， 人 在 大 多 数 互 联网 品牌 广告 ， 
特别 是 视频 广告 中 ，CPM 都 是 主流 的 结算 方式 。 

(2 ) CPC 绪 算 ， 即 按 点 击 结算 。 这 种 方式 最 早产 生 于 搜索 广告 ， 并 很 快 为 大 多 
数 效果 类 广告 产品 所 普遍 采用 。 在 这 种 方式 结算 方式 下 ， 扣 击 率 的 估计 是 由 交 给 供 
25/3 ( 或 者 中 间 市 场 ) 完成 的 。 氮 击 价值 的 估计 则 由 需求 方 完成 ， 并 通过 点 击 出 价 
的 方式 向 市 场 通 知 自己 的 估价 皇 。 这 样 的 分 工 对 于 互联 网 广告 ， 特别 是 以 效果 为 导 疝 


的 互联 网 广告 而 言 ， 有 着 清晰 的 合理 性 : 供给 方 通过 其 收集 的 大 量 用 户 行为 数据 可 
以 相对 准确 地 估计 点 击 率 ; 而 转化 效果 是 广告 商 站 内 的 行为 ， 当 然 他 们 上 自己 的 数据 
分 析 体 系 也 就 能 更 准确 地 对 其 作出 评 佑 。 因 此 ， 以 CPC 方 式 结算 ， 在 效果 类 广告 市 场 
中 具有 接近 歼 断 的 地 位 。 

(3)CPS(cost per sale) /CPA (cost per action) /ROI 结 算 ，, 即 按照 
销售 订单 数 、 转 化 行为 数 或 投入 产 出 比 来 结算 。 这 些 都 是 按照 转化 付费 的 一 些 变 
种 。 这 是 一 种 比较 极端 的 结算 方式 ， 即 需求 方 只 按照 最 后 的 转化 收益 来 结算 ， 从 而 
在 最 大 程度 上 规避 了 风险 。 在 这 种 结算 方式 下 ， 供 给 方 或 中 间 市 场 除 了 估计 点 击 率 
还 要 对 点 击 价值 作出 估计 ， 这 样 才能 合理 地 决定 流量 分 配 。 这 里 存在 两 个 很 明显 的 
问题 。 一 是 转化 行为 为 用 户 人 在 广告 商 站 内 的 行为 ， 并 非 供 给 方 能 够 直接 监测 和 控 
制 ， 因 此 无 法 进行 准确 的 估计 和 优化 。 只 有 那些 转化 流程 和 用 户 体 验 类 似 的 广告 丙 
组 成 的 广告 平台 按 转 化 付费 才 比 较 可 行 ， 典 型 的 例子 就 是 淘宝 客 广告 。 二 是 实际 执 
行 中 ， 和 存在 广告 主 故 意 扣 单 以 降低 转化 率 ， 从 而 低 成 本 赚 取 大 量 品牌 曝光 的 可 能 。 
因此 ， 我 们 认为 这 种 方式 主要 适合 于 一 些 垂 直 广 告 网 络 (vertical ad 
network ) 。 另 外 在 DSP 中 ， 由 于 需要 完全 代表 广告 主 利益 出 价 和 优化 ， 因 此 也 会 出 
现 一 些 跟 广告 主 之 间 按 照 CcPS 计 费 的 情形 。 总 体 而 言 ， 对 于 那些 与 广告 主 收益 和 直接 挂 
钓 的 需求 方 广告 产品 来 说 ，CPS 在 一 定 条 件 下 是 可 行 的 ; 但 是 对 于 普通 的 中 | 间 市 场 广 
告 产品 来 说 ，CPS 并 不 是 一 种 趋势 性 的 结算 方式 。 而 “CPA 广告 在 移动 应 用 下 载 的 场 
景 下 ， 由 于 转化 流程 统一 在 Apple Store 或 Google Play 中 ， 且 存 企 较 完善 的 第 
三 万 转化 监测 ， 因 而 市 场 较为 成 玖 。 

(4) CPT (cost per time) 结算 ， 这 是 针对 大 品牌 广告 主 特定 的 广告 活动 ， 
将 某 个 广告 位 以 独占 式 方 式 交 给 某 广告 主 ， 并 按 独 占 的 时 间 段 收取 费用 的 方式 。 严 
格 来 说 ， 这 是 一 种 销售 方式 而 非 一 种 计 费 模式 ， 因 为 价格 是 双方 事先 约定 ， 无 需 计 
量 。 这 种 方式 主要 适用 于 一 些 强 曝光 属性 ， 有 一 定 定制 性 的 广告 位 。 在 一 般 的 展示 


广告 中 ， 这 种 方式 在 欧美 市 场 市 场 并 不 经 常 采 用 ， 但 在 中 国 的 门户 网 站 广告 中 ，CPT 
仍然 是 一 种 主流 模式 。CPT 这 样 独占 式 的 售卖 虽然 有 一 些 额外 的 品牌 效果 和 橱窗 效应 
产生 ， 但 是 非常 不 利于 受众 定向 和 程序 交易 的 友 展 ， 因 而 从 长 期 的 角度 来 看 ， 其 比 
例会 有 下 降 的 趋势 。 
表 2-1 展 示 了 以 上 几 种 结算 方式 概要 的 对 比 。 绪 合 来 看 可 以 认为 ， 对 于 效果 广 

告 ，CPC 计 费 万 式 最 有 利于 发 挥 供给 方 和 需求 方 的 长 处 ， 因 而 在 市 场 上 被 广泛 接受 | 
对 于 品牌 广告 ， 由 于 效果 和 目的 有 时 不 便于 直接 衡量 ， 可 以 考虑 按照 CPM 的 方式 计 
费 ; 而 CPS 的 计 费 方式 只 在 一 些 特 定 的 环境 下 才 比 较 合理 。 

表 2-1 在 线 广告 结算 方式 比较 
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CPT 高 曝光 的 品牌 广告 
无 法 利用 受众 定 回 技术 

CPM 可 以 利用 受众 定向 选择 目标 人 群 | 1. 有 受众 选择 需求 的 品牌 广告 
合约 售卖 下 ， 受 众 划分 不 能 过 细 | 2. 实时 竞价 广告 交易 

| 可 以 非常 精细 地 划分 受众 人 和 群 | sn 

CPC FARADI XAAR 竞价 广告 网 络 

比较 合理 的 供给 方 和 需求 方 分 工 
) 7 dH 


供给 方 运营 难度 较 大 2. 效果 类 DSP 
既然 广告 有 计 费 的 需求 ， 也 就 同时 产生 了 效果 监测 的 需求 。 在 CPM 类 品牌 广告 
中 ， 由 于 曝光 在 媒体 上 产生 ， 广 告 主 往往 会 委托 第 三 方 的 广告 监测 公司 对 曝光 量 、 
点 击 量 等 指标 作 技 术 核 实 ， 并 以 此 作为 结算 的 依据 。 在 cPC 或 CPSs 结 算 的 广告 交易 
中 ， 由 于 计 费 的 指标 ， 即 点 击 或 转化 在 广告 主 的 网 站 上 产生 ， 所 以 并 不 需要 特别 的 
监测 服务 。 因 此 ， 可 以 认为 广告 监测 主要 服务 的 对 象 是 品牌 广告 主 。 随 着 CPM 广告 定 


同方 式 越 来 越 复杂 ， 广 告 监测 也 从 简单 的 展示 和 点 击 记 数 到 频次 、 人 口 属性 等 信息 
的 验证 和 计量 。 关 于 这 方面 的 问题 和 技术 ， 我 们 将 人 在 第 15 章 中 再 作 介绍 。 
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由 于 供给 方 和 需求 方 的 博弈 天 系 ， 需 要 一 些 行 业 协 会 来 约束 和 规范 市 场 。 天 注 
这 些 行 业 协 会 的 立场 与 使 命 对 更 清晰 地 认识 广告 的 商业 逻辑 大 有 帮助 。 以 最 重要 的 
北美 市 场 为 例 ， 主 要 有 三 个 行业 协会 需要 了 解 。 


2.4.1 Fa, Se 
i b 
ICID. 


交互 广告 局 ( Interactive Advertising Bureau , IAB, 
http://www.iab.net ) 成 立 于 26 世 纪 未 ， 是 在 线 广告 领域 最 重要 的 行业 协会 ， 其 
使 命 是 致力 于 推动 在 线 广告 市 场 的 发 展 。IAB 主 要 是 站 在 供给 方 的 长 远 利 益 上 来 研究 
和 影响 市 场 。 换 句 话 说，IAB 主 要 关注 的 是 在线 广告 供给 方 的 利益 。 正 如 IAB 在 目 己 
网 站 标题 上 声明 的 那样 ， 这 一 组 织 存 在 的 使 命 是 "dedicated to the growth of 
interactive advertising market”， 即 致力 于 交互 广告 市 场 的 壮大 。 而 这 个 方 
同 的 受益 者 主要 是 各 在 线 媒体 与 广告 扩 术 公司 。 因 此 ，IAB 的 典型 会 员 是 Google、 
Facebook、Yahoo!、Microsoft 这 样 的 广告 供给 方 以 及 AudienceScience、 
MediaMath 这 样 的 广告 技术 公司 。 广 告 技术 公司 和 产品 的 友 展 是 为 了 更 好 地 服务 广 
告 主 和 提升 在 线 广告 效果 ， 以 利于 更 多 的 预算 进入 在 线 广告 领域 。 从 具体 工作 上 
看 ，IAB 与 互联 网 大 量 媒体 和 广告 平台 合作 ， 制 定 了 一 系列 意义 重大 的 标准 和 规范 ， 
这 些 都 极 大 地 促进 了 在 线 广告 行业 的 健康 友 展 。 其 中 包括 如 下 几 个 重要 的 规范 。 

(1) 横幅 广告 创意 尺寸 标准 。2081 年 IAB 公布 的 标准 仅仅 支持 7 种 创意 尺 


J , BU120x600 ( 摩天 大 楼 ) 160x600 ( 宽 摩 天 大 楼 ) . 180x150 ( 长 方形 ) 、 
300x250 ( 中 级 长 方形 ) 336x280 ( 大 长 方形 ) 240x400 ( 坚 长 方形 ) 、 
250x250 ( 正方 形 弹出 ) 。 创 意 尺 寸 的 统一 化 ， 对 于 在 线 广 告 市 场 淡化 广告 位 概 
念 、 推 广 受 众 定 向 有 着 非常 根本 的 促进 作用 。 中 国 市 场 与 此 对 比 ， 由 于 广告 位 尺寸 
非常 复杂 ， 因 而 各 个 网 站 之 间 的 壁 仅 较 高 ， 非 常 不 利于 定向 广告 和 程序 米 买 的 友 
展 。 

( 2 ) 视频 广告 标准 VAST ( digital video ad serving template ) 。 由 于 
视频 广告 创意 和 展示 形式 比较 复杂 ， 消 耗资 源 也 较 多 ，IAB 制定 了 一 套 统一 的 XML 
schema 用 于 向 在 线 视频 媒体 投放 视频 流 内 的 广告 ， 并 对 其 用 户 进行 规范 化 的 描述 ， 
这 一 标准 实际 上 减少 了 进入 视频 广告 领域 的 技术 障碍 ， 使 得 视频 广告 市 场 规模 快速 
上 友 展 成 为 可 能 。 

( 3) 通用 实时 竞价 接口 标准 OpenRTB。 实 时 竞价 的 技术 我 们 将 在 第 6 章 中 介 
绍 ， 简 单 来 说 ， 这 种 米 买 方式 是 为 了 方便 需求 方 按照 自己 的 受众 划分 高 精准 地 采 买 
流量 。 假 设 各 个 广告 交易 平台 的 实时 竞价 接口 不 同 ， 将 意味 着 需求 方 需要 付出 几 倍 
的 技术 成 本 以 完成 广泛 的 市 场 对 接 。 于 是 ，IAB 制 定 了 统一 的 ”OpenRTB 标 准 ， 将 横 
幅 广 告 、 视 频 广告 、 移 动 广告 情形 下 的 实时 竞价 接口 做 了 统一 的 规范 。 





美国 广告 代理 协会 (American Association of Advertising Agencies, 
4A ) 并 不 是 一 个 专门 从 事 互 联网 广告 的 组 织 ， 而 是 线 上 线 下 各 种 广告 ， 特 别 是 品牌 
广告 的 代理 丙 在 美国 的 行业 协会 。4A 公司 向 其 会 员 代理 公司 约定 ， 人 至 少 要 向 广告 主 
收取 一 定 比 例 的 服务 费用 ， 这 一 方面 是 为 了 避免 行业 内 的 恶性 竞争 ， 另 一 方面 也 是 


确保 广告 代理 公司 能 够 站 在 广告 主 的 利益 角度 考虑 问题 ， 而 后 一 点 对 于 市 场 的 长 期 
健康 友 展 是 有 很 大 帮助 的 。4A 公 司 的 典型 代表 有 奥 美 ( 0gilvy&Mather ) 、 智 威 汤 
X (JWT). Be (McCann) 等 。 值 得 注意 的 是 ， 由 于 4A 是 一 个 美国 协会 ， 因 此 严 
各 意义 上 的 4A 公 司 都 是 美国 公司 ， 不 过 对 于 另外 一 些 国际 影响 力 较 强 、 业 务 方式 和 
准则 与 其 类 似 的 非 美 国 广告 代理 公司 ， 我 们 也 往往 都 将 其 归 为 广义 4A 公 司 的 行列 ， 

典型 的 例子 如 日 本 的 电 通 ( Dentsu ) 公司 。 





美国 国家 广告 商 协会 ( Association of National Advertisers , ANA) 是 
一 个 广告 主 的 协会 ， 也 是 最 彻底 地 代表 需求 方 利益 的 组 织 。 其 会 员 多 是 AT&T、 宝 洁 
(P&G) 以 及 NBA 等 这 些 拥 有 大 量 广告 预算 的 广告 主 。ANA 对 广告 主 利 益 的 维护 可 以 
从 一 件 小 事 中 得 到 体现 : 在 微软 宣布 考虑 在 IE16 支 持 限 制 第 三 方 cookie 小 用 的 “do 
not track (DNT) ”协议 时 ， 是 ANA 明 确 声明 对 这 样 的 计划 表示 反对 ， 因 为 这 样 将 
会 使 得 在 线 广告 市 场 精确 投 送 广告 的 能 力 受 到 很 大 影响 ， 而 这 显然 是 与 广告 主 的 利 


葵 相 违背 的 。 
2.5 Free 


1.CPA/ROI 的 结算 方式 看 似 对 广告 主 有 利 ， 实 际 也 众生 了 一 些 变形 的 推广 方 
式 。 请 考察 你 接触 到 的 CPAAROI 渠 道 ， 并 研究 其 与 CPM 或 CPC 渠 道 的 关键 差异 。 

2. 对 广告 产品 而 言 ， 优 化 利润 与 优化 ROI 有 什么 区 别 ? 

3 .在 社交 网 络 中 发 生 的 传播 营销 过 程 与 典型 的 展示 、 点 击 、 转 化 流程 有 很 大 不 
同 ， 请 对 此 建立 一 个 合理 的 模型 ， 并 分 析 其 中 的 关键 量化 指标 。 




































































5] .当然 需求 方 不 会 完全 按照 其 点 击 价值 来 出 价 ， 而 是 会 寻求 更 低 的 价格 以 获得 套利 空间 。 因 此 ， 如 何在 市 场 机 制 上 避免 广告 主 积极 地 调整 出 价 ， 以 促进 市 场 竞争 的 激烈 程度 ， 是 竞价 体系 设计 的 关 
键 。 我 们 将 在 第 5 章 中 讨论 这 一 问题 。 
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在 线 广告 不 同 于 传统 线 下 广告 ， 其 产品 形式 ( 这 里 说 的 并 非 创 意 形式 ) 相当 丰 
襄 。 在 1.4 节 中 ， 我 们 对 在 线 广告 的 整个 友 展 历 程 朋 了 初步 了 解 ， 如 果 从 产品 的 视角 
将 这 一 过 程 提炼 出 来 ， 可 以 用 图 3-1 来 示意 。 
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图 3-1 在 线 广告 产品 进化 示意 
我 们 将 图 3-1 中 的 产品 分 为 4 个 部 分 ， 这 些 将 在 后 面 几 章 中 分 别 介 绍 。 
(1) 合约 广告 产品 : 它 由 线 下 广告 的 交易 形式 衍生 而 来 ， 又 可 以 分 为 按照 时 段 
售卖 的 CPT 广 告 和 按照 约定 展示 量 售卖 的 CPM 广告 。 这 类 广告 产品 主要 服务 于 后 续 
效果 不 宜 直接 衡量 的 品牌 类 广告 主 ， 在 门户 网 站 和 视频 网 站 较为 常见 。 


(2) 竞价 广告 产品 : 其 最 重要 的 形式 是 搜索 广告 ， 其 产品 形式 为 对 搜索 天 键 词 


的 竞价 。 这 种 广告 在 拓展 到 站 外 展示 广告 流量 时 ， 演 进 成 了 对 页 面 关键 词 或 者 用 户 
标 等 竞价 的 产品 形式 ， 也 惑 是 “ADN。 竞 价 广告 的 商业 逻辑 与 合约 广告 完全 不 同 ， 也 
是 解决 效果 类 广告 需求 的 天 键 产 品 形式 。 

(3) 程序 化 交易 广告 产品 : 竞价 广告 的 进一步 友 展 催生 了 实时 竞价 的 交易 形 
陈 。 实 时 竞价 使 得 需求 方 可 以 更 灵活 地 划分 和 选择 目 己 的 目标 受众 ， 也 使 得 更 广泛 
的 数据 使 用 和 交易 迅速 上 友 展 起 来 。 以 实时 竞价 为 核心 的 一 系列 交易 方式 逐渐 演变 大 
机 器 之 间 以 程序 化 的 方式 完成 广告 交易 决策 ， 因 此 ， 这 类 产品 称 为 程序 化 交易 广告 
产品 。 

(4) 原生 广告 产品 : 广告 的 产品 体系 除了 目 身 的 演进 ， 另 一 个 重要 课题 是 如 何 
处 理 与 非 商 业 化 内 容 的 天 系 ， 让 广告 与 内 容 尽 可 能 以 “原生 ”的 方式 共存 。 搜 索 广 
告 和 社交 网 络 信息 流 广告 对 此 作 了 非常 有 价值 的 探索 ， 不 过 这 样 的 原生 广告 在 规模 
化 和 交易 化 方面 也 遇 到 了 很 多 的 问题 。 然 而 ， 随 着 近年 来 移动 设备 对 于 原生 广告 的 
强烈 渴求 ， 像 标准 ADN 那 样 的 原生 广告 平台 正在 快速 友 展 中 。 

对 于 每 一 种 广告 的 产品 形态 来 说 ， 都 可 能 会 有 三 个 主要 的 组 成 部 分 : 面向 需求 
方 的 接口 、 面 向 供给 方 的 接口 、 中 间 的 投放 系统 及 匹配 策略 。 根 据 产 品 的 不 同 ， 其 
中 接口 的 形式 可 以 是 面向 人 工 操 作 的 界面 ， 也 可 以 是 机 器 间 通 信 的 接口 。 这 些 广告 
中 的 产品 环 刁 ,都 属于 商业 产品 的 范畴 ， 我们 将 先 对 这 类 产品 设计 的 主要 原则 以 及 
需求 方 和 供给 方 界面 的 一 般 情形 进行 介绍 ， 为 后 面 几 章 中 按 上 述 的 四 个 部 分 分 别 介 
绍 广告 产品 做 准备 。 





商业 产品 指 的 是 面向 商业 客户 而 非 一 般 用 户 的 产品 ， 其 中 最 典型 的 代表 就 是 互 
联网 广告 产品 。 其 他 的 一 些 面 向 客户 的 互联 网 产品 ， 如 客户 关系 管理 (Customer 
Relation Management , CRM) 、 网 站 分 析 (Web Analytics, WA) 以 及 后 面 要 提 


到 的 数据 管理 平台 (Data Management Platform, DMP) 等 ， 也 属于 商业 产品 的 
范畴 。 商 业 产 品 的 设计 和 运营 有 着 一 定 的 共性 原则 ， 我 们 有 必要 在 这 里 提 一 下 。 

互联 网 是 一 个 产品 驱动 的 行业 。 熟 悉 产 品 设计 的 读者 应 该 了 解 ， 用 户 产 品 演进 
的 根本 驱动 力 是 人 们 追求 方便 的 天 性 。 因 此 ， 用 户 产 品 的 设计 原则 总 是 朝 着 更 简 
单 、 更 直观 、 更 快捷 的 方向 努力 。 而 相应 的 产品 设计 重点 也 集中 在 关键 功能 的 突 
出 、 操 作 过 程 的 流畅 等 方面 。 

然而 ， 如 果 有 机 会 参与 商业 产品 的 设计 和 运营 ， 你 丈 会 友 现 ， 其 中 关注 的 重点 
和 运营 的 方式 有 相当 大 的 区 别 。 有 时候 展 好 的 用 尸体 验 ， 并 不 一 定 能 市 来 一 款 商 业 
产品 展 好 的 口碑 或 市 场 上 的 成 功 ， 这 是 为 什么 呢 ? 简单 来 说 ， 丙 业 产品 一 般 都 有 一 
个 明确 的 商业 目标 ， 而 商业 产品 的 使 用 者 选用 一 款 产 品 的 动力 也 是 为 了 优化 这 个 商 
业 目 标 。 例 如 ， 广 告 ， 其 使 用 者 不 论 是 媒体 、 代 理 或 广告 主 ， 都 是 为 了 优化 目 已 的 
利润 。 因 此 ， 对 这 类 产品 的 选择 标准 是 客观 的 ， 也 是 可 衡量 的 。Google AdWords 之 
所 以 为 大 量 的 中 小 广告 主 广泛 采用 ， 主 要 原因 并 不 是 因为 “AdWords 的 使 用 便捷 性 远 
超 同类 产品 ， 而 是 因为 其 推广 效果 有 目 共 睹 。 因 此 ， 商 业 产 品 的 任何 一 项 功能 改 
进 ， 只 要 能 带 来 其 对 应 商业 目标 的 提升 机 会 ， 即 使 在 使 用 流程 上 引入 一 些 不 便 , 也 
是 可 以 接受 的 。 这 样 的 产品 原则 市 来 的 结果 正如 图 1-9 所 示 ， 整 个 广告 市 场 的 交易 环 
万 越 来 越 复杂 ， 使 用 门槛 也 越 来 越 高 ， 这 与 用 户 产 品 简化 的 大 趋势 是 非常 不 同 的 。 


在 优化 既定 商业 目标 这 一 商业 产品 的 总 体 原则 下 ， 我 们 在 商业 产品 运营 过 程 中 
有 一 些 需要 注意 的 关键 点 。 


(1) 相对 于 产品 功能 ， 要 特别 关注 产品 中 的 策略 部 分 。 策 略 本 身 是 商业 产品 非 
党 天 键 的 环节 ， 以 广告 为 例 ， 竞价 中 的 机 制 设计 、 冷 启动 时 的 数据 探索 、 受 众 定 癌 
的 标签 体系 都 是 产品 策略 需要 考虑 的 内 容 。 策 略 上 看 似 简 单 的 调整 往往 能 市 来 广告 
系统 收入 上 巨大 的 变化 。 与 一 般 产 品 不 同 ， 这 些 策 略 的 制定 既 需 要 对 于 广告 市 场 深 
入 的 了 解 ， 又 需要 许多 扎实 的 基础 知识 。 对 于 刚 开始 进入 广告 产品 领域 的 读者 ， 将 


关注 点 集中 在 这 些 “ 看 不 见 的 产品 特征 ”上 是 需要 下 大 工夫 体会 和 实践 的 。 

(2) 要 特别 关注 数据 ， 让 运营 和 产品 优化 形成 闭环 。 由 于 商业 产品 的 目标 是 确 
定 和 可 优化 的 ， 所 有 产品 特征 和 集 略 的 成 功 与 人 否 要 严格 根据 数据 的 反馈 来 判断 。 同 
时 ， 新 产品 功能 的 规划 也 要 在 洞察 历史 数据 和 其 他 用 尸 产 品 数据 的 基础 上 进行 。 从 
数据 分 析 开 始 ， 以 数据 结束 ， 这 样 的 闭环 式 友 代 是 最 适合 商业 产品 的 开 友 模式 。 

(3) 当然 ， 在 所 有 与 使 用 者 打交道 的 产品 界面 上 ， 用 户 产 品 追 求 便捷 性 的 设计 
原则 依然 非常 重要 。 不 过 在 商业 产品 中 ， 实 现 功 能 以 外 过 于 新 奇 、 烃 酷 的 产品 外 观 
和 交互 模式 是 应 当 人 避免 的 。 

由 于 本 书 探讨 的 是 计算 广告 这 一 典型 的 商业 产品 ， 我 们 也 会 将 重点 放 在 广告 投 
放 、 交 易 、 策 略 、 数 据 使 用 和 交易 等 产品 环节 上 ， 而 对 于 广告 系统 与 需求 万 或 供给 
方 的 界面 接口 ， 将 只 在 下 面 作 简要 的 介绍 


o 





由 于 广告 市 场 的 复杂 性 ， 一 个 广告 系统 的 需求 方 有 可 能 是 广告 主 、 代 理 公司 、 
TD 或 者 DSsP。 无 论 面 对 哪 种 需求 方 ， 一 般 来 说 ， 我 们 都 需要 一 个 操作 界面 让 其 对 预 
算 、 广 告 投 放 条 件 和 其 他 策略 做 设置 。 

一 般 来 说 ， 需 求 方 提供 的 广告 是 分 层次 管理 的 。 在 市 场 上 大 多 数 的 产品 中 ， 广 
告 的 层次 分 为 广告 主 、 广 告 (推广 ) 计划 (campaign), TE (推广 ) 组 (ad 
goup ) 、 广 告 创意 (creative) 等 几 个 层级 ， 参 见 图 3-2。 其 中 广告 主 层级 管理 一 
个 广告 主 的 通用 信息 ， 而 其 他 三 个 层级 则 与 具体 的 投放 管理 相关 ， 我 们 来 分 别 介绍 
=P, 


Cres mm (Cre ) 


p [za FRIJ 广告 组 ， E 告 创 Bs; 








图 3-2 广告 层级 关系 示意 

(1 ) 广告 计划 概念 上 对 应 于 广告 主 的 一 次 投放 合同 ， 其 中 包括 了 预算 、 时 间 泡 
围 等 基本 信息 ， 参 见 图 3-3 中 的 示例 。 除 了 这 些 信息 以 外 ， 图 中 还 有 另外 的 一 些 相关 
设置 ， 例 如 ，( a ) 在 有 多 个 广告 产品 可 供 选 择 时 ， 要 在 广告 计划 中 确定 投放 的 是 哪 
个 产品 ， 如 图 中 的 “选择 投放 网 络 ”部 分 ;( b ) 预算 的 分 配 策略 (pacing) , BD 
图 中 的 “预算 分 配 控制 ”部 分 。 对 于 大 多 数 广告 计划 ， 较 为 均匀 地 分 配 预 算 可 能 比 
较 合 理 ， 但 是 对 于 游戏 开 服 、 移 动 应 用 冲 榜 等 类 型 的 推广 ， 预 算 的 集中 伦 费 则 很 重 
要 。 


设置 推广 计划 
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图 3-3 广告 计划 设置 示意 

( 2 ) 广告 组 对 应 于 一 个 具体 的 广告 投放 策略 ， 主 要 是 设 定 受 众 定 向 条 件 和 出 
价 ， 参 见 图 3-4 中 的 示例 。 广 告 组 最 重要 的 功能 是 设置 各 种 各 样 的 定向 条 件 ， 因 而 是 
广告 效果 优化 的 关键 层级 。 另 外 ， 对 媒体 的 选择 也 可 以 认为 是 一 种 定向 条 件 。 值 得 
注意 的 是 出 价 一 一 人 在 后 面 我 们 将 要 介绍 的 竞价 类 广告 产品 中 ， 出 价 是 由 广告 主 目 行 
设置 ， 而 非 预先 约定 。 而 对 于 出 价 与 能 获得 流量 的 规模 和 质量 的 关系 ， 广 告 主 很 难 
有 直觉 上 的 认识 。 因 此 ， 从 产品 的 角度 来 说， 往往 需要 给 出 一 些 有 意义 的 提示 ， 如 
根据 当前 出 价 做 的 流量 预 估 ， 或 者 如 图 3-4 中 所 示 比 较 直 接 的 “建议 出 价 ”。 
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图 3-4 广告 组 设置 示意 

(3 ) 广告 创意 则 是 最 终 展示 出 来 的 素材 ， 可 能 在 同一 个 组 策略 下 有 不 同 尺寸 的 
创意 存在 ， 参见 图 3-5 中 的 示例 。 对 于 文字 链 类 型 的 创意 ， 基 本 素材 包括 标题 、 描 述 
SAA ; 而 对 于 图 片 类 型 的 创意 ， 则 直接 上 传 图 片 素材 。 另 外 广告 创意 的 必要 设置 
还 应 包括 展示 和 点 击 的 监测 地 址 等 。 为 了 方便 广告 投放 人 员 直 观 地 看 到 创意 的 展示 
效果 ， 往 往 还 会 提供 创意 预 狗 功能 ( 如 图 3-5 右 侧 的 “ 预 抠 区 ” ) 。 

天 于 需求 方 设置 管理 的 细节 功能 ， 在 不 同 的 产品 中 可 能 会 有 较 大 的 差别 ， 但 是 
这 样 的 4 层级 组 织 方 式 是 比较 通用 的 。 除 了 业务 管理 的 便捷 性 ， 这 样 的 层级 结构 还 为 
数据 统计 和 建 模 提 供 了 天 然 的 、 合 理 的 层级 结构 ， 让 新 创意 的 冷 启动 问题 变 得 容易 
一 些 。 在 后 文 介绍 各 类 广告 产品 时 ， 我 们 会 重点 天 注 其 商业 人 逻辑 和 产品 策略 ， 而 对 
于 界面 上 投放 管理 的 功能 不 再 展开 讨论 。 


关键 词 创 总 


360 合 并 创意 ,png 


[X Nl MEL Nitin GA ey Mr sy" Fl An bY 1 
玉 AT. t ILE RIKI | E H T » 
从 AB 划 I nn MU SC M 


http://ju.mediav.com 





23-5 广告 创意 设置 示意 
对 于 投放 规模 很 大 的 广告 主 或 代理 ， 所 有 的 操作 都 通过 类 似 上 面 的 界面 人 工 完 
成 是 非常 低 效 的 。 对 于 这 样 的 情形 ， 广 告 平台 一 般 会 提供 与 界面 功能 相对 应 的 API 接 
O=, 以 便 大 的 需求 方 用 编程 的 方式 进行 批量 投放 和 和 优化。 不过， 需求 方 也 有 可 能 
EH ”API 来 做 一 些 组 合 或 测试 投放 ， 这 会 使 得 投放 系统 的 压力 大 增 ， 因 此 在 实际 
运营 中 要 对 市 宽 或 操作 次 数 作 一 定 的 限制 。 


3 .3 供给 方 管理 接口 


在 目前 的 主流 的 广告 交易 逻辑 中 ， 供 给 方 即 媒体 对 业务 的 控制 比 起 需求 方 来 要 


SRS. eam RAREST RM SUA ESZA. Bea Lele , 
也 可 以 是 移动 应 用 开 友 者 。 

媒体 的 操作 比 广告 主 方 要 简单 ， 一 般 来 况 ， 添 加 、 删 除 广告 位 以 及 得 看 各 广告 
位 的 运营 数据 是 主要 的 功能 需求 。 这 一 接口 的 功能 性 示例 见 图 3-6 ( 广告 位 名 称 已 经 
被 隐 去 ) 。 








图 3-6 媒体 广告 位 管理 示意 

对 于 其 中 的 某 个 具体 广告 位 ， 根 据 产品 功能 的 不 同 ， 需 要 的 操作 功能 也 不 同 。 
但 一 般 来 说 ， 设 定 广 告 位 尺寸 、 取 广告 投放 代码 或 SDK 以 及 设 定 该 广告 位 对 广告 类 型 
的 要 求 是 一 些 通用 的 需求 。 在 广告 管家 或 SSP 之 类 的 供给 方 产品 中 ， 往 往 还 会 有 精细 
的 流量 分 配 功 能 。 需 要 注意 的 是 ， 广 告 平台 会 维护 各 个 广告 位 对 应 的 域名 或 应 用 
名 ， 以 防 其 他 域名 的 流量 盗用 广告 位 代码 。 

上 面 介绍 的 这 种 比较 简单 的 供给 方 管理 接口 主要 用 于 一 般 的 ADN 或 ADX, 而 在 
媒体 需要 深度 参与 的 原生 广告 中 ， 这 样 简 单 的 对 接 方 式 不 再 适用 ， 关 于 这 部 分 内 容 


参见 第 7 章 。 


3.4 ERAZ 


1. 请 研究 你 熟悉 的 某 一 个 商业 产品 ， 并 探讨 其 与 用 户 产品 在 设计 和 运营 方面 的 
不 同 之 处 。 

2 .如 果 向 需求 方 提供 API 来 蔡 代 一 般 的 UI 投放 方式 ， 会 对 广告 产品 的 运营 产生 
什么 样 的 影响 ? 
本 书 由 [ePUBw.COM] 整理 ，ePUBw.COM 提供 最 新 最 全 的 优质 


电子 书 下 载 ! ! T 


从 本 章 开 始 ， 我 们 将 对 在 线 三 告 一 些 主要 的 产品 形态 和 相应 的 商业 逻辑 展开 讨 
论 。 先 从 按照 合约 的 方式 售卖 的 广告 产品 开始 ， 这 部 分 产品 在 整体 产品 演进 过 程 的 


中 的 位 置 如 图 4-1 所 示 。 


a ^ 
x A. a 3 e FE d 
CPT) $ ZR S p | 告 


展示 量 搜索 广告 社 2^ wl 2 r- Ae. 
Ha TAS Px] 24 J d 
合约 广告 AX, ZI r4 
| A 
精准 定 回 广告 上 下 文 广告 信息 流 广 告 
一 般 竞价 广告 植 人 式 原 生 广 告 


程序 化 交易 广告 
图 4-1 合约 广告 产品 
互联 网 广告 业务 的 初始 阶段 ， 拥 有 流量 的 媒体 与 需要 广告 资源 的 代理 商 是 市 声 
的 主要 参与 者 。 线 下 广告 的 商业 次 辑 也 被 照搬 到 了 线 上 ， 由 广告 代理 公司 和 媒体 签 
订 协 议 ， 确 保 某 些 广告 位 在 某 时 间 段 为 指定 的 广告 商 所 占有 ， 同 时 广告 商 按 整 体 合 
同 支付 广告 费用 。 这 种 按 CpT 结 算 的 广告 位 合约 方式 对 技术 的 依赖 性 较 小 ， 只 需要 用 
到 简单 的 广告 排 期 系统 。 


合约 式 广告 的 重点 是 按 CPM 计 费 的 展示 量 合约 广告 。 这 种 方式 仍然 以 合同 的 方式 
确定 一 次 广告 活动 的 投放 总 量 和 展示 单价 ， 但 是 售卖 的 对 象 已 经 由 “广告 位 ”进化 
到 了 “广告 位 + 人 群 ”。 这 可 以 说 是 在 线 广告 友 展 史上 的 一 个 重要 里 程 碑 ， 而 数据 也 
被 直接 应 用 在 广告 的 商业 活动 中 。 从 供给 方 产品 和 技术 的 复杂 程度 来 看 ，CPM 合 约 甚 
至 比 以 后 的 竞价 系统 更 加 复杂 ， 其 复杂 性 主要 来 源 于 多 个 合约 对 投放 系统 提出 的 量 
的 约束 。 

在 展示 量 合约 广告 中 ， 需 求 方 的 产品 技术 并 没有 太 大 友 展 。 这 是 因为 所 有 广告 
投放 的 执行 要 求 都 以 合约 的 形式 交 由 供给 方 来 完成 了 ， 需 求 方 并 没有 技术 上 优化 的 
空间 。 而 正 是 由 于 需求 方 对 深入 优化 效果 的 需求 进一步 上 友 展 ， 才 产生 了 按照 竞价 方 
陈 来 售卖 的 广告 系统 ， 和 希望 大 家 通过 本 章 中 合约 广告 的 讨论 ， 能 够 理解 这 种 交易 形 
态 进化 的 内 在 动力 。 


4.4) Ses 


广告 位 合约 是 最 早产 生 的 在 线 广告 售卖 方式 。 它 是 指 媒 体 和 广告 主 约定 在 某 一 
时 间 段 内 、 在 某 些 广告 位 上 固定 投 送 该 广告 主 的 广告 ， 相 应 的 结算 方式 为 ”CPT。 这 
是 一 种 典型 的 线 下 媒体 广告 投放 模式 ， 在 互联 网 广告 早期 也 很 目 然 地 被 及 用。 这 种 
方式 的 缺点 非常 明显 ， 即 无 法 做 到 按 受 众 类 型 投放 广告 ， 因 而 也 无 法 进行 深入 的 效 
果 优 化 。 可 以 说 ， 广 告 位 并 不 是 目前 互联 网 广告 的 主流 模式 。 

不 过 ， 这 种 方式 在 一 些 特定 的 场景 下 也 有 一 定 的 好 处 : 首先 ， 在 一 些 强 曝光 属 
性 的 广告 位 =x 上 采用 这 种 独占 式 的 广告 投放 ， 往 往 可 以 有 效 地 给 用 户 市 来 品牌 冲 
E; 而 在 其 他 一 些 横幅 位 置 长 期 独占 陈 的 购买 有 利于 形成 “橱窗 效应 ”， 塑 造 不 断 
攀升 的 品牌 价值 和 转化 效果 ; 还 有 一 点 ， 这 种 销售 模式 由 于 可 以 向 广告 主 提供 一 些 
额外 的 附加 服务 ， 比 如 同一 个 页 面 上 的 况 品 互 奈 ， 使 得 高 溢价 的 流量 变现 成 为 可 


额 
BE. 


随 着 受众 定向 技术 的 发 展 ， 广 告 位 独占 式 售卖 的 执行 方式 也 友 生 了 很 大 的 变 
化 。 即 使 某 个 广告 位 全 部 投放 一 个 广告 主 的 创意 ， 也 并 不 意味 着 一 定 要 投放 同样 的 
一 款 创意 ， 而 受众 定 同 在 其 中 也 可 以 起 到 很 重要 的 作用 。 例 如 ， 某 汽车 生产 商 广告 
主 旗下 可 能 有 多 个 系列 的 产品 ,如 小 型 车 、 蛇 凑 型 车 、 豪 华 车 、SUV 等 ， 而 这 些 车 型 
的 潜在 购买 人 群 其 实 也 有 很 大 的 区 别 ， 如 果 能 够 对 这 些 系列 的 受众 分 别 投 送 相应 的 
创意 ， 丈 可 以 取得 更 好 的 效果 。 另 外 ， 即 使 在 受众 上 无 法 区 分 的 情形 下 ， 也 可 以 利 
用 频次 控制 的 方式 向 同一 用 户 弟 进 式 地 展示 一 系列 创意 ， 以 达到 更 好 的 效果 。 这 些 
与 受众 定 同 结合 的 广告 位 独占 式 售 卖 实 际 上 与 其 他 非 独占 式 的 售卖 在 系统 实现 上 没 
有 本 质 区 别 了 。 

广告 位 合约 还 有 一 种 变形 的 形式 ， 即 按照 广告 位 的 轮 播 售卖 。 在 这 种 方式 中 ， 
同一 个 用 尸 对 同一 个 广告 位 的 一 系列 访问 ， 被 依次 标 上 一 组 循环 的 轮 播 顺序 号 ， 如 
{1，2 ,3}。 将 其 中 具有 同样 顺序 号 的 展示 作为 一 个 虚拟 的 广告 位 ， 售卖 给 广告 主 。 
需要 注意 的 是 ， 对 某 一 个 用 户 而 言 ， 第 一 次 展示 的 顺序 号 不 应 该 设 为 1， 而 是 应 该 按 
相等 概率 从 所 有 轮 播 顺序 号 中 随机 选取 一 个 ， 并 从 此 开始 票 加 和 和 循环。 这 样 做 是 为 
了 保证 各 个 轮 播 分 配 到 的 流量 一 致 。 这 种 轮 播 的 售卖 方式 在 广告 位 独占 式 售卖 库存 
不 够 而 广告 主 又 需要 确定 的 展现 规则 保证 时 ， 被 较 广 泛 地 采用 ， 特 别 是 在 中 国门 户 
网 站 的 品牌 广告 中 。 

在 CPT 售 卖 的 情形 下 ， 供 给 方 和 需求 方 的 计算 需求 和 技术 成 分 都 不 太 高 。 广 告 主 
的 营销 需求 往往 是 4A 或 其 他 代理 公司 进行 媒介 玉 买 (media buy ) 。 而 对 于 广告 质 
和 量 两 方面 的 要 求 ， 也 都 是 根据 代理 公司 人 员 对 媒体 广告 位 的 历史 经 验 以 及 对 广告 
主 业务 的 了 解 通过 人 工 优化 的 方式 来 满足 。 对 于 供给 方 ， 即 媒体 而 言 ， 往 往 会 使 用 
一 种 在 合同 确定 以 后 自动 地 执行 合同 的 广告 管理 工具 ， 或 者 称 为 广告 排 期 系统 。 

广告 排 期 系统 的 代表 性 产品 有 DoubleClick 的 DFP 以 及 中 国 市 场 上 好 了 了 
( Allyes ) 的 类 似 产 品 ， 还 有 免费 给 中 小 网 站 使 用 的 百度 广告 管家 等 。 当 然 ， 排 期 


等 基础 功能 都 是 这 些 产 品 早期 的 形态 ， 随 着 受众 定向 、 实 时 竞价 等 广告 投放 万 式 越 
来 越 普 及 ， 这 些 产 品 的 功能 也 都 逐渐 演进 ， 从 简单 的 广告 排 期 管理 逐渐 拓展 出 其 他 
售卖 方式 下 媒体 需要 的 功能 ， 如 果 结合 了 动态 分 配 和 RTB 等 功能 ， 也 融 接 近 于 供给 
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从 我 们 马上 将 要 谈 到 的 展示 量 合约 开始 ， 大 多 数 广告 产品 的 基础 是 按照 受众 售 
卖 。 因 此 ， 受 众 定向 是 其 非常 重要 的 支持 技术 。 当 然 ， 受 众 定 同 本 身 的 重要 性 和 应 
用 泡 围 远 远 超过 合约 广告 领域 ， 而 在 各 种 吝 价 广告 产品 中 也 尤其 重要 。 因 此 ,我们 
先 对 受众 定 同 这 一 核心 的 广告 产品 策略 进行 整体 介绍 。 

随 看 在 线 广告 技术 和 业务 的 友 展 ， 产 生 了 各 种 各 样 的 受众 定向 万 法 ， 这 些 方 法 
的 综合 应 用 使 得 广告 的 精准 程度 越 来 越 局 。 在 考察 某 种 定 内 方法 时 ， 主 要 有 两 个 方 
面 的 性 能 需要 关注 : 一 是 定向 的 效果 ， 即 符合 该 定向 方式 的 流量 上 高 出 平均 ”eCPM 
的 水 平 ; 二 是 定向 的 规模 ， 即 这 部 分 流量 占 整 体 广告 库存 流量 的 比例 。 当 然 ， 效 果 
好 、 履 兰 率 又 高 的 定向 方法 是 我 们 追求 的 目标 ， 不 过 往往 难以 两 全 。 因 此 ， 广 告 系 
统 有 必要 同时 提供 多 种 定向 方法 的 支持 ， 以 达到 整体 流量 上 质 的 最 优化 。 





我 们 先 来 看 一 些 市 场 上 比较 流行 的 定向 方式 。 按 照 其 有 效 性 和 在 广告 信息 接受 
过 程 中 起 作用 的 阶段 ， 对照 第 1 草 中 的 广告 有 效 性 模型 ， 我们 把 这 些 定向 万 式 按照 粗 
略 的 定性 评估 表示 成 图 4- 2。 

在 图 4-2 中 ， 水 平方 向 表示 的 是 定向 技术 在 广告 信息 接收 过 程 中 大 致 起 作用 的 阶 
段 ， 而 垂直 方向 为 定性 的 效果 评价 。 对 受众 定向 的 一 些 典 型 方法 ， 我 们 举例 况 明 如 
Ts 


(1) 地 域 定 向 ( geo-targeting ) Ke MRED REM IZA 
同方 式 。 由 于 很 多 广告 主 的 业务 有 区 域 特性 ， 地域 定 向 的 作用 相当 重要 ， 也 是 所 有 
在 线 广告 系统 都 必须 支持 的 定向 方式 。 地 域 定向 也 可 以 认为 是 一 种 上 下 文 定向 ， 不 
过 其 计算 简单 ， 仪 仅 需 要 简单 的 查 表 就 可 以 完成 。 地 域 定向 是 一 种 不 可 或 缺 的 流量 
选择 手段 。 举 个 例子 ， 假 设 某 电 商 网 站 只 企 北 京 运 言 和 送 货 ， 那 么 其 效果 广告 一 般 
来 说 应 该 定向 在 北京 的 区 域内 ， 否 则 一 个 其 他 省 的 顾客 点 击 广告 进入 购物 环节 后 ， 
如 果 发 现 无 法 结算 ， 将 会 是 非常 差 的 用 户 体 验 。 
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图 4-2 常见 受众 定向 方法 一 览 

(2) 人 口 属性 定向 ( demographical targeting). 。 人 口 属性 定向 虽然 在 效 
果 上 未 必 特 别 突出 ， 但 是 由 于 在 传统 广告 的 话语 体系 中 大 量 使 用 这 类 标签 来 表达 受 
众 ， 因 此 它 特别 为 品牌 广告 主 所 熟悉 。 在 在 线 广告 的 品牌 合约 中 也 经 常会 有 对 人 口 
属性 的 要 求 。 人 口 属性 的 主要 标签 包括 年 龄 、 性 别 、 教 育 程度 、 收 入 水 平等 。 人 口 
属性 有 一 点 与 兴趣 标签 不 同 ， 那 融 是 它 是 可 以 监测 的 ， 即 可 以 用 采样 加 调研 的 方法 
来 判断 一 次 人 口 属性 定向 广告 活动 受众 中 有 多 少 比 例 是 正确 的 。 因 此 ， 在 按 CPM 结 算 
的 广告 中 ， 人 口 属性 比 其 他 定向 标签 为 广告 主 接受 的 程度 更 高 。 

需要 说 明 的 是 ， 除 非 有 特别 的 专门 数据 来 源 ， 如 实名 制 ”SNS 的 注册 信息 或 在 线 


购物 的 消费 记录 等 ， 一 般 情 况 下 要 进行 准确 的 人 口 属 性 定向 并 不 容易 。 在 人 口 属性 
数据 履 兰 率 不 足 的 情况 下 ， 如 果 要 按照 这 种 定向 进行 CPM 售卖 ， 我 们 可 以 用 已 知人 口 
属性 的 用 户 作 为 训练 集 ， 构 造 分 类 器 对 人 口 属性 进行 目 动 标注 。 一 般 来 说， 采用 分 
类 器 的 万 法 确定 人 口 属性 准确 程度 有 限 。 在 单纯 效果 类 的 广告 活动 中 ， 预 测 人 口 属 
性 的 必要 性 不 太 高 ， 因 为 预测 出 来 的 人 口 属性 也 是 根据 用 户 其 他 行为 特征 得 到 的 ， 
并 不 能 提供 额外 的 信息 量 。 

(3 ) 频道 定向 (channel targeting). 。 频 道 定向 是 完全 按照 供应 万 的 内 容 
分 类 体系 将 库存 按照 频道 划分 ， 对 各 频道 的 流量 投 送 不 同 的 广告 。 这 种 定向 方式 比 
较 适 用 于 那些 离 转化 需求 比较 近 的 垂直 类 媒体 ， 如 汽车 、 母 凤 、 购 物 导 舰 等 。 对 于 
内 容 履 盖 面 比较 宽 的 媒体 ， 这 种 方式 取得 的 效果 是 有 限 的 。 举 一 个 极端 的 例子 ， 如 
果 我 们 把 某 网 站 的 军事 频道 作为 一 个 定向 标签 ， 那 么 很 难 找 到 直接 匹配 的 广告 需 

(4) 上 下 文 定向 (contextual ”targeting ) 。 将 频道 定向 这 种 万 法 加 以 推 
广 ， 可 以 根据 网 页 的 具体 内 容 来 匹配 相关 的 广告 ， 这 融 是 上 下 文 定向 。 上 下 文 定 同 
的 粒度 可 以 是 天 键 词 、 主 题 ， 也 可 以 是 根据 广告 主 需 求 确定 的 分 类 。 上 下 文 定向 的 
效果 在 不 同类 别 的 内 容 上 有 很 大 的 区 别 ， 但 是 这 种 方式 有 一 个 非 音 大 的 好 处 ， 那 残 
是 履 盖 率 比较 高 。 对 大 多 数 广告 展示 ， 不 论 对 当前 访问 用 户 的 信息 了 解 有 多 少 ， 往 
往 都 可 以 根据 当前 浏览 的 页 面 推测 用 户 的 即时 兴趣 ， 从 而 推送 相 天 广告 。 由 于 履 镭 
率 高 ， 上 下 文 定向 也 是 ADN 中 首选 的 定向 方法 之 一 。 

(5 ) 行为 定向 (behaviorial ”targeting ) 。 行 为 定向 是 展示 广告 中 非常 重 
要 的 一 种 定向 方式 ， 其 框架 是 根据 用 尸 的 历史 访 间 行为 了 解 用 尸 兴趣 ， 从 而 投 送 相 
天 广告 。 行 为 定 同 之 所 以 重要 是 因为 它 提 供 了 一 种 一 般 性 的 思路 ， 使 得 在 互联 网 上 
收集 到 的 用 户 行 为 数据 可 以 产生 变现 的 价值 。 因 此 , 行为 定 同 的 框架 、 算 法 和 评价 
指标 也 丈 葛 定 了 在 线 广告 数据 驱动 的 本 质 特 征 ， 并 众生 了 相关 的 数据 加 工 和 交易 的 


衍生 业务 。 如 果 把 上 下 文 定向 看 成 是 根据 用 户 单 次 访问 行为 的 定向 ， 那 么 行为 定向 
可 以 认为 是 一 系列 上 下 文 定向 的 融合 结果 。 因 此 ， 上 下 文 定向 是 行为 定向 的 基础 , 
而 且 对 各 种 类 型 的 上 下 文 定向 都 可 以 有 相对 应 的 行为 定向 方式 。 例 如 ， 地域 定向 是 
根据 用 户 当前 访问 的 IP 来 确定 地 理 区 域 ， 相 应 地 ， 也 可 以 根据 用 户 过 去 一 段 时 间 内 
的 访问 中 最 频繁 的 地 理 位 置 来 定向 ， 这 种 方式 实际 上 得 到 的 更 接近 于 用 户 的 经 常 居 
住地 ， 业界 有 人 称 其 为 “where-on-earth” 定 向 。 

(6) 精确 位 置 定向 (hyper-local ”targeting ) 。 在 移动 设备 上 投放 广告 
时 ， 我 们 有 可 能 获得 非常 精准 的 地 理 位 置 。 例 如 ， 利 用 蜂窝 信息 或 者 GPS， 地 理 定 位 
的 精度 完全 可 以 达到 街区 的 粒度 ， 如 果 进一步 利用 Wi-Fi、 蓝 牙 等 设备 的 室内 定位 技 
术 ， 精 度 可 以 进一步 达到 数 米 级 。 这 就 使 得 基于 精确 地 理 位 置 的 广告 成 为 可 能 ， 也 
使 得 大 量 区 域 性 非常 强 的 小 广告 主 ( 如 餐饮 、 美 容 等 ) 有 机 会 投放 精准 定位 的 广 
告 ， 这 已 经 与 传统 意义 上 的 地 域 定向 有 了 质 的 变化 ， 也 成 为 移动 广告 最 重要 的 机 会 
之 一 。 在 桌面 环境 中 ， 也 有 数据 提供 商 ( 如 Experian ) 可 以 提供 根据 IP 信 息 得 出 的 
电脑 精确 定位 ， 在 这 些 数据 的 支持 下 ， 桌 面 在 线 广告 也 可 以 进行 精确 位 置 定 向 。 

(7) 重 定向 ( retargeting) 。 这 是 一 种 最 简单 的 定制 化 标签 ， 其 原理 是 对 某 
个 广告 主 过 去 一 段 时 间 的 访客 投放 广告 以 提升 效果 。 显 然 ， 某 个 广告 主 的 访客 是 其 
独 有 的 信息 ， 因 此 这 属于 定制 化 标签 。 重 定向 被 公认 为 精准 程度 最 高 、 效 果 最 突出 
的 定向 方式 ， 不 过 其 人 群 覆 盖 量 往往 较 小 。 这 是 因为 ， 重 定向 的 覆盖 投放 量 是 由 广 
告 主 固 有 用 户 的 量 和 与 媒体 的 重合 比例 共同 决定 的 。 关 于 重 定向 的 原理 ， 我 们 将 在 
第 6 章 中 具体 介绍 。 

(8) 新 客 推荐 定向 (look-alike targeting ). 。 由 于 重 定向 的 量 太 小 , 而 
且 无 法 满足 广告 主 接触 潜在 用 户 的 需求 ， 因 此 不 能 仅仅 依靠 它 来 投 送 广 告 。 新 客 推 
荐 定向 的 思路 是 根据 广告 主 提供 的 种 子 访客 信息 ， 结 合 广告 平台 更 丰富 的 数据 ， 为 
广告 主 找 到 行为 上 相似 的 潜在 客户 。 这 一 方法 的 目的 是 希望 在 同等 用 户 履 盖 比率 的 


情况 下 ， 达 到 比 一 些 通用 的 兴趣 标签 更 好 的 效果 ， 这 也 从 实质 上 体现 了 广告 主 数据 
的 核心 价值 。 新 客 推 荐 只 能 说 是 一 种 大 致 的 思路 ， 而 非 具体 的 方法 ， 其 基本 原理 我 
们 也 将 在 第 6 章 中 介绍 。 

( 9) 团购 ( group-purchase ) 。 这 并 不 是 一 种 定向 广告 技术 ， 却 与 其 有 一 定 
的 天 联 ， 因 此 我 们 在 这 里 一 并 说 明 。 根 据 我 们 的 观点 ， 团 购 也 是 一 种 变相 的 广告 形 
式 ， 这 种 广告 有 两 个 显著 的 特点 : 首先 是 一 般 都 针对 区 域 性 的 广告 主 ， 因 此 地 域 定 
向 或 者 直接 按照 地 域 分 类 组 织 是 必要 的 功能 ; 另外 ， 团 购 主要 是 利用 价格 工具 ， 直 
接 降低 用 户 在 决策 阶段 的 门槛 ， 使 得 价格 敏感 的 用 户 转 化 效果 有 了 明显 的 提升 ， 当 
然 ， 这 一 手段 也 是 要 付出 成 本 的 。 用 类 似 的 手段 在 创意 上 直接 显示 打折 或 降价 的 促 
销 信 息 也 被 其 他 的 电 商 类 广告 广泛 使 用 。 





在 一 些 反 映 用 户 兴 趣 类 的 受众 定 同 万 法 ( 如 行为 定向 、 上 下 文 定 同等 ) 中 ,我 
们 需要 一 个 标签 体系 ， 将 每 个 用 尸 映 射 到 其 中 的 一 个 或 几 个 标签 上 去 。 如 何 规 划 合 
理 的 标签 体系 对 广告 产品 的 运营 影响 非常 大 ， 因 此 ， 这 是 产品 策略 中 特别 关键 的 一 
环 。 一 般 来 说 ， 这样 的 标签 体系 有 两 种 组 织 万 式 : 一 种 是 按照 某 个 分 类 ; 
(taxonomy ) 制定 一 个 层次 标签 体系 ， 其 中 上 层 的 标签 是 下 一 层 的 父 节 点 ， 在 人 群 
履 闹 上 是 包含 天 系 。 一 些 面向 品牌 广告 的 受众 定向 往往 及 用 这 种 结构 化 较 强 的 标签 
体系 。 需 要 指出 ， 这 一 体系 中 的 标签 是 根据 需求 方 的 逻辑 而 制定 ， 某 些 在 媒体 方 意 
义 很 大 的 分 类 标签 ， 如 军事 等 ， 由 于 没有 明确 的 需求 对 应 ， 不 宜 出 现在 标签 体系 
中 。 

另外 一 种 兴趣 标签 的 组 织 万 式 ， 是 根据 广告 主 的 具体 需求 设置 相应 的 标签 ， 所 
有 的 标签 并 不 能 为 同一 个 分 类 体系 中 所 摘 述 ， 也 不 仔 在 明确 的 父子 关系。 这 种 半 结 
构 化 或 非 结 构 化 的 标签 体系 往往 包含 一 些 比较 精准 的 标签 的 集合 ， 因 而 主要 适用 于 


多 种 目标 ， 特 别 是 效果 目标 并 存 的 广告 主 的 精准 流量 选择 要 求 。 

选择 结构 化 兴趣 标签 体系 还 是 非 结构 化 的 兴趣 标签 体系 更 多 地 是 商业 上 的 决 
策 ， 主 要 需要 考虑 下 面 两 种 情形 。 

(1) 当 标签 作为 广告 投放 的 直接 标的 时 ( 包括 CPM 广告 及 竞价 广告 中 直接 可 
锌 广告 主 选择 的 人 群 ) ， 这 些 标签 既 要 能 够 为 广告 主 所 理解 ， 又 要 方便 广告 主 的 选 
择 。 因 此 ， 在 这 种 情形 下 ， 结 构 化 的 层级 标签 体系 往往 是 较 合理 的 产品 方案 ， 特 别 
是 在 CPM 广 告 中 ， 标 签 的 划分 不 能 过 细 ( 原因 将 在 4.3.3 节 中 讨论 ) 。 这 种 结构 化 标 
签 体 系 的 一 个 典型 代表 是 表 4-1 所 示 的 Yahoo! ”行为 定向 标签 体系 。 从 表 4-1 可 以 看 
出 ， 这 样 的 标签 体系 非常 易于 理解 和 操作 ， 在 面向 品牌 广告 主 售 卖 时 较为 适用 。 


表 4-1 Yahoo! GD 受众 定向 标签 体系 


一 级 标 答 二 级 标 丛 
Finance Bank Accounts, Credit Cards, Investiment, Insurance, Loans, Real Estate, ... 
Service Local, Wireless, Gas & Electric, ... 
Travel Europe, Americas, Air, Lodging, Rail, ... 
Tech Hardware, Software, Consumer, Mobile, ... 
Entertainment Games, Movies, Television, Gambling, ... 
Autos Econ/Mid/Luxury, Salon/ Coupe/SUV, ... 
FMCG Personal care, ... 
Retail Apparel, Gifts, Home, ... 
Other Health, Parenting, Moving, ... 


(2) 当 标签 仅仅 是 投放 系统 需要 的 中 间 变 量 ， 作 为 ”CTR 预测 或 者 其 他 模块 的 
变量 输入 时 ， 那 么 结构 化 的 标签 体系 其 实 是 没有 必要 的 ， 应 该 完全 按照 效果 驱动 的 


方式 来 规划 或 挖掘 标签 ， 而 各 个 标签 之 间 也 不 太 需 要 层次 关系 的 约束 。 这 样 的 标签 
体系 ， 比 较 典 型 的 代表 是 Bluekai 的 标签 体系 ， 由 于 其 面向 的 对 象 是 追求 效果 或 特 
殊 人 群 定位 的 广告 主 ， 因 而 组 织 上 的 规整 性 也 就 让 位 于 效果 的 精准 性 了 。 关 于 
Bluekai 标 等 体系 的 更 多 介绍 ， 参 见 6.6.5 节 。 

还 有 一 种 特殊 的 标签 形式 ， 即 关键 词 。 直 接 按照 搜索 或 浏览 内 容 的 关键 词 划分 
人 群 和 投放 广告 ， 往往 可 以 达到 比较 精准 的 效果 。 关 键 词 这 种 标签 体系 是 无 层级 关 
系 、 完 全 非 结构 化 的 ， 它 虽然 很 容易 理解 ， 但 并 不 太 容 易 操作 。 不 过 由 于 搜索 广告 
在 整个 在 线 广告 中 的 重要 地 位 ， 选 择 和 优化 投放 关键 词 这 样 一 项 专门 技术 已 经 发 展 
得 相当 充分 ， 因 此 这 种 标签 也 是 实践 中 常用 的 。 


4.3 展示 量 合 给 


在 今天 ， 广 告 位 合约 的 方式 并 非 互联 网 广告 的 主流 ， 哪 怕 是 以 品牌 为 目的 的 投 
放 。 实 际 上 ， 互 联网 主流 的 品牌 广告 投放 方式 是 按照 CPM 结算 的 展示 量 合约 。 展 示 量 
合约 指 的 是 约定 某 种 受众 条 件 下 的 展示 量 ， 然 后 按照 事先 约定 好 的 单位 展示 量 价格 
来 结算 。 这 种 合约 还 有 一 个 名 称 ， 残 是 担保 式 投 送 即 6D， 其 中 的 “担保 ” 指 的 束 是 
量 的 约定 。 实 际 执行 中 ， 在 未 能 完成 合约 中 的 投放 量 时 ， 可 能 要 求 媒体 承担 一 定 的 
赔偿 。 

很 多 情况 下 ， 我 们 也 会 把 展示 量 合约 通俗 地 称 为 “CPM ”广告 。 实 际 上 ，CPM 
广告 还 包括 另 一 种 按 CPM 结算 ， 但 是 不 约定 展示 量 的 售卖 方式 ， 如 广告 交易 市 场 中 
的 广告 售卖 。 而 那样 的 非 保 量 CPM 实际 上 属于 竞价 广告 而 非 合约 广告 ， 其 商业 逻辑 差 
别 较 大 。 因 此 ， 这 里 我 们 采用 展示 量 合约 的 说 法 。 

我 们 从 供给 万 和 需求 方 两 方面 来 看 这 种 售卖 方式. 出现 的 合理 性 。 媒 体 从 按 固定 
广告 位 售卖 变 为 按 CPM 和 售卖， 初衷 是 为 了 在 受众 定向 的 基础 上 提高 单位 流量 的 变现 能 


力 ， 可 是 面向 的 仍然 是 原来 的 品牌 广告 主 。 广 告 主 按 广告 位 及 买 时 ， 比较 容易 预 估 


自己 拿 到 的 流量 ， 可 是 按照 人 群 定向 的 方式 采 买 ， 流 量 有 诸多 不 确定 的 因素 。 
此 ， 需求 方 希望 在 合约 中 加 入 对 量 的 保证 ， 才 能 放心 地 采 买 。 

展示 量 合约 虽然 以 人 群 为 显 式 标 的 进行 售卖 ， 但 是 请 注意 一 个 非常 重要 的 事 
Sn 

展示 量 合约 并 没有 摆脱 广告 位 这 一 标的 物 。 

这 是 由 于 在 CPM 这 种 结算 方式 下 ， 无 法 将 多 个 差别 很 大 的 广告 位 打包 成 同一 售 
卖 标 的 ， 因 为 这 些 广告 位 的 曝光 有 效 性 可 能 差别 巨大 ， 合 理 的 CPM 也 相应 地 大 幅 变 
动 。 实 践 中 的 展示 量 合约 往往 是 以 一 些 曝 光量 很 大 的 广告 位 为 基础 ， 再 切 分 人 群 售 
卖 ， 最 典型 的 例子 是 视频 网 站 的 贴 片 位 置 或 者 门户 网 站 首页 的 广告 位 。 对 实时 竞价 
有 所 了 解 的 读者 可 能 有 疑问 ， 广告 交 易 市 场 里 的 广告 位 五 花 八 门 ， 为 什么 可 以 按照 
CPM 结 算 呢 ? 这 个 问题 我 们 在 后 面谈 到 实际 竞价 的 产品 逻辑 时 再 进行 讨论 。 

里 然 从 交易 模式 上 来 看 ， 展 示 量 合约 仍然 是 比较 传统 的 交易 模式 ， 但 是 从 技术 
层面 上 看 ， 这 种 模式 的 出 现实 际 上 已 经 反映 了 互联 网 广告 计算 驱动 的 本 质 : 分 析 得 
到 用 户 和 上 下 文 的 属性 ， 并 由 服务 端 根 据 这 些 属性 及 广告 库 情况 动态 决定 广告 候 
选 。 这 一 两 业 模式 的 出 现 ， 需 要 有 一 系列 拉 术 手段 的 支持 ， 这 些 手段 主要 包括 受众 
定向 、 流 量 预测 和 担保 式 投放 等 。 其 中 受众 定向 是 在 线 广告 非常 重要 的 核心 问题 ， 

告 产 品 广泛 使 用 ， 我 们 已 经 在 上 一 节 进 行 了 介绍 。 下 面 讨论 一 下 流量 预测 
和 在 线 分 配 的 产品 策略 问题 。 
4.3.1 流量 预测 

展示 量 合约 售卖 的 是 某 特定 人 群 上 的 广告 曝光 次 数 ， 而 人 群 不 同 于 确定 的 广告 
位 ， 因 此 必须 在 合约 中 约定 投放 的 量 。 于 是 ， 在 产品 策略 上 就 产生 了 流量 预测 
(traffic forecasting ) 这 一 问题 。 流 量 预测 在 广告 产品 中 包括 以 下 三 个 主要 用 


(1) 售 前 指导 。 在 展示 量 合约 广告 中 ， 由 于 要 约定 曝光 上 总数， 事先 尽 可 能 准确 
地 预测 各 人 和 群 标签 的 流量 变 得 非常 关键 。 如 果 流 量 严 重 低 估 ， 会 出 现 资源 售卖 量 不 
足 的 情形 ; 如 果 流 量 严重 高 估 ， 则 会 出 现 一 部 分 合约 不 能 达成 的 状况 。 这 都 会 直接 
影响 整个 系统 的 收入 。 

( 2 ) 在 线 流量 分 配 。 同 样 是 在 展示 量 合约 广告 中 ， 由 于 合约 之 间 在 人 群 选择 上 
会 有 很 多 交集 ， 当 一 次 曝光 同时 满足 两 个 以 上 合约 的 要 求 时 ， 怎 样 决策 将 它 分 配给 
哪个 合约 以 达到 整体 满足 所 有 合约 的 目的 ， 这 是 下 文 将 要 讨论 的 在 线 分 配 问题 。 各 
种 在 线 分 配 算法 都 要 依赖 流量 预 估 的 结果 ， 以 达到 | 高效 和 准确 的 目标 。 

(3) 出 价 指导 。 在 况 价 广告 中 ， 由 于 没有 了 量 的 保证 ， 广告 主 往往 需要 根据 自 
己 预 计 的 出 价 先 了 解 一 下 可 能 获得 多 少 流量 ， 以 判断 自己 的 出 价 是 否 合理 。 与 前 面 
的 应 用 不 太一 样 ， 这 里 的 流量 预测 还 多 了 出 价 这 样 一 个 因素 。 

综 上 所 述 ， 广 告 里 一 般 的 流量 预测 问题 ， 可 以 描述 成 对 流量 t (u, b) 这 个 函数 
的 估计 ， 其 中 第 一 个 参数 u 是 给 定 的 人 和 群 标签 或 人 群 标签 的 组 合 ， 第 二 个 参数 b 
是 出 价 。 在 展示 量 合 约 中 ， 由 于 没有 竞价 ， 可 以 看 成 是 上 述 问题 在 b 一 co 情形 下 的 
特例 。 与 流量 预测 有 关 的 技术 将 在 第 11 章 中 介绍 。 

4.3.2 流量 塑 形 

流量 预测 对 于 展示 量 合约 非常 重要 ， 不 过 在 本 质 上 还 是 被 动 地 统计 流量 情况 。 
在 有 些 情形 下 ， 我 们 可 以 主动 地 影响 流量 ， 以 利于 合约 的 达成 。 这 一 产品 策略 问题 
称 为 流量 塑 形 (traffic shaping). 

流量 塑 形 的 典型 场景 是 综合 性 门户 网 站 上 售卖 的 展示 量 合约 广告 。 我 们 知道 ， 
门户 网 站 各 子 频道 的 流量 严重 依赖 于 首页 关键 位 置 链 接 的 导 流 。 假 如 在 车 展期 间 , 
汽车 频道 上 的 展示 广告 需求 旺盛 ， 那 么 首页 上 的 链接 应 该 更 多 地 给 汽车 频道 导 流 以 
利于 收入 的 增加 。 这 样 的 想法 相当 直接 ， 在 实践 中 也 被 广泛 使 用 。 不 过 ， 从 商业 产 


= 


品 的 要 求 来 看 ， 要 系统 化 、 高 效率 地 达到 流量 塑 形 的 目标 ， 需 要 用 户 产 品 与 广告 产 
品 的 需求 情况 打通 ， 然 后 按照 一 定 的 准则 ， 在 不 伤害 用 户 体验 的 情形 下 ， 尽 可 能 提 
高 商业 变现 的 效率 。 本 书 不 对 这 方面 具体 的 产品 技术 进行 详细 的 介绍 。 

值得 注意 的 是 ， 流 量 逆 形 问题 已 经 涉及 用 户 产品 与 商业 产品 的 内 在 联系 ， 这 与 
后 面 讨 论 的 原生 广告 有 干 丝 万 缕 的 联系 ， 我 们 将 在 第 7 章 中 详细 讨论 。 

4.3.3 在 线 分 配 

展示 量 合约 这 种 保 量 合约 都 面临 一 个 问题 : 各 个 合约 要 求 的 人 群 很 可 能 大 量 交 
E, 如何 设 计 分 配 策 略 ， 使 得 各 个 合约 都 尽 可 能 被 满足 。 为 了 描述 这 一 策略 问题 ， 
我 们 将 其 简化 为 一 个 二 部 图 (bipartite graph) 匹配 的 问题 。 二 部 图 的 一 方 是 表 
示 广 告 库存 的 供给 节点 ， 每 个 节点 代表 的 是 所 有 人 和 群 标签 都 相同 的 广告 流量 集合 ; 
二 部 图 的 另 一 方 是 表示 广告 合约 的 需求 节点 ， 每 个 节点 代表 的 是 一 个 广告 合约 的 人 
群 标签 条 件 。 
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图 4-3 在 线 分 配 中 的 二 部 图 匹配 问题 示意 
供给 节点 、 需 求 节 点 和 在 线 分 配 二 部 图 的 示例 见 图 4-3。 在 图 4-3 中 ， 下 方 的 6 
个 节点 为 供给 节点 ， 而 上 面 的 三 个 节点 为 需求 节点 。 如 果 某 供给 节点 的 受众 标签 能 
够 满足 某 需 求 节点 的 要 求 ， 我 们 就 在 相应 的 两 个 节点 间 建 立 一 条 连接 边 。 供 给 节点 


中 的 各 个 条 件 之 间 都 是 “与 ”的 关系 ， 因 此 各 个 供给 节点 之 间 的 流量 是 无 重合 的 ; 
需求 节操 中 的 各 个 条 件 也 是 “与 ”的 关系。 ( 如 果 广 告 投放 中 设置 的 是 “或 ”的 天 
系 ， 则 可 以 转化 为 多 个 需求 节点。 ) 显然 ， 需 求 节操 之 间 可 能 会 抢夺 同一 个 供给 节 
点 的 流量 。 

如 果 系统 允许 在 一 天 结束 后 才 分 配 今天 的 流量 ， 我 们 可 以 很 容易 地 设计 策略 : 
根据 每 个 供给 节点 的 流量 和 各 需求 节点 的 约束 ， 解 上 面 的 分 配 问 题 ， 得 到 每 个 供给 
节操 应 该 分 配 多 少 比 例 的 流量 给 某 个 需求 节操 。 不 过 在 实际 情况 中 ， 我 们 不 可 能 等 
到 流量 情况 全 部 已 知 后 再 做 决策 ， 而 是 需要 企 每 一 次 曝光 时 实时 做 出 分 配 决 策 ， 
此 ， 这 一 策略 问题 称 为 在 线 分 配 。 在 线 分 配 需要 根据 历史 数据 和 某 种 策略 离线 得 到 
一 个 分 配方 案 ， 线 上 则 照 此 方案 执行 。 

如 果 可 选 的 标签 数量 很 少 ， 比 如 只 开放 年 龄 和 性 别 ， 那 么 供给 节点 的 数量 束 不 
多 ; 如 果 合 约 的 数量 也 不 太 多 ， 那 么 需求 节操 的 数量 也 不 多 。 在 这 种 情形 下 ， 我 们 
仍然 可 以 借鉴 上 面 的 离线 方法 进行 在 线 分 配 : 根据 流量 预测 的 结果 得 到 代替 实际 流 
=, 青 解 上 面 的 分 配 问 题 ， 得 到 每 个 供给 节点 应 该 分 配 多 少 比 例 的 流量 给 某 个 需求 
节点 ， 而 线 上 的 系统 则 根据 解 得 的 分 配 比例 来 执行 。 不 过 ， 实 际 的 在 线 分 配 技 术 比 
个 要 复杂 很 多 ， 我 们 将 企 第 11 章 中 具体 讨论 。 

随 着 标签 数量 的 增加 ， 供 给 忆 点 的 数量 会 以 指数 速度 上 升 ， 而 每 一 个 供给 节操 
的 流量 当然 也 就 迅速 收缩 。 当 节点 的 流量 过 小 时 ， 对 其 进行 相对 准确 的 预测 就 变 得 
相当 困难 ， 这 时 上 面 所 说 的 方案 束 会 变 得 完全 不 可 行 。 因 此 ， 展 示 量 合约 这 类 广告 
产品 在 人 群 标签 非常 丰富 和 精准 时 是 无 法 有 效 地 运作 的 ， 而 这 正 是 况 价 广告 产品 的 
原动力 之 一 。 
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我 们 不 再 举例 况 明 。 展 示 量 合约 有 两 种 典型 的 产品 场景 : 一 是 用 于 视频 广告 资源 ; 
二 是 北美 主要 门户 网 站 的 品牌 性 广告 位 。 我 们 简要 介绍 Yahoo! ”GD 市 场 ， 供 大 家 了 
解 。 

Yahoo! GD 市 场 


YAHOO! 


ADVERTISING 

Yahoo! 的 展示 广告 分 为 两 个 产品 体系 : GD 和 非 担 保 式 投 送 ( Non- 
Guaranteed Delivery, NGD) 。 前 者 是 面向 品牌 的 合约 广告 ， 而 后 者 包括 了 广告 
网 络 、 程 序 化 交易 等 多 种 产品 。 应 该 说 ， 从 是 否 满 足 高 价值 品牌 广告 为 视角 来 划分 
广告 产品 ， 这 是 一 种 相对 陈旧 的 视角 ， 这 也 导致 了 Yahoo! ”在 程序 化 交易 方面 的 产 
品 进展 一 直 不 快 。 

我 们 重点 来 看 一 下 Yahoo! GD。 在 这 个 市 场 中 ， Yahoo! 为 品牌 广告 主 提供 合 
约 陈 的 采 买 接口 ， 并 且 提 供 了 基础 的 定向 功能 来 划分 人 群 。 在 Yahoo! ”GD 中 的 人 群 
标签 包括 地 域 、 人 口 属性 ( 主要 是 年 龄 和 性 别 ) 以 及 行为 定向 标签 。 其 行为 定向 标 
签 分 为 多 个 层次 ， 其 中 前 两 层 的 一 部 分 标签 如 表 1-1 所 示 。 

在 这 个 行为 定向 标签 体系 中 ， 一 共有 数 干 个 标签 ， 不 过 实际 售卖 中 ， 产 生 过 销 
售 合约 的 不 过 一 百 多 个 。 这 非常 典型 地 反映 了 合约 广告 的 米 熔 : 大 量 精准 的 标签 在 
合约 量 的 束缚 下 基本 无 法 售卖 。 因 此 ， 大 家 要 特别 注意 ， 一 个 广告 产品 声称 自己 的 
标签 体系 多 么 复杂 ， 有 多 少 标签 种 类 ， 实 际 上 没有 太 大 的 实际 意义 ， 这 些 标 签 的 人 
群 规 模 会 更 有 说 服 力 。 

应 该 说 ，Yahoo! GD 市 场 是 显示 量 合约 广告 最 早产 生 也 比较 完备 的 产品 体系 之 
一 。 在 实时 竞价 产生 之 前 ，Yahoo! GD 市 场 提供 的 简单 标签 已 经 能 满足 大 部 分 需求 
了 。 有 关 展 示 量 合约 广告 的 一 些 关 键 产品 策略 和 技术 方案 都 来 自 于 这 一 产品 ,因此 
值得 大 家 深入 了 解 。 并 且 ， 在 今天 视频 广告 快速 友 展 的 环境 下 ， 这 一 市 场 中 的 方法 


论 和 解决 方案 很 多 情形 下 都 可 以 直接 被 采用 。 
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1. 除 了 广告 位 合约 和 展示 量 合约 ， 是 否 可 以 设计 一 种 点 击 量 合约 的 交易 模式 ， 
会 遇 到 什么 样 的 挑战 ? 
2 . 在 展示 量 合约 中 售卖 的 受众 往往 有 监测 上 的 要 求 ， 那 么 对 于 行为 定向 这 样 的 
不 易 监测 的 用 户 标签 而 言 ， 有 什么 产品 思路 提高 其 市 场 接受 程度 ? 
AEH [ePUBw.COM] #8 , ePUBw.COM 提供 最 新 最 全 的 优质 
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随 着 搜索 业务 变现 的 要 求 ， 以 及 精准 受众 定向 技术 的 友 展 ， 在 搜索 广告 和 展示 
广告 中 都 产生 了 竞价 这 种 新 的 交易 模式 。 对 比 前 面 的 合约 广告 可 知 ， 竞价 交易 模式 
的 本 质 是 将 量 的 约束 从 交易 过 程 中 去 除 ， 仪 仅 采 用 “ 价 高 者 得 ”的 简单 决策 方案 来 
投放 每 一 次 广告 。 竞 价 顺 应 了 定向 广告 向 精细 化 发 展 的 趋势 要 求 ， 也 为 大 量 无 法 用 
合约 售卖 的 剩余 流量 找到 了 可 能 的 变现 渠道 ， 使 得 大 量 中 小 广告 主 参与 在 线 广告 的 

可 能 性 和 积极 性 大 大 增强 ， 也 使 得 在 线 广告 的 商业 环境 与 传统 广告 产生 了 本 质 区 
All. 

本 章 将 集中 介绍 竞价 类 广告 产品 ， 特 别 是 搜索 广告 和 广告 网 络 ， 并 重点 讨论 
中 关键 的 产品 策略 。 这 部 分 产品 在 整体 产品 演进 过 程 的 中 的 位 置 如 图 5-1 所 示 。 但 

, 实时 竞价 相关 的 产品 由 于 在 数据 利用 和 商业 逻辑 上 与 广告 网 络 区 别 较 大 ， 我 们 
将 在 第 6 章 中 进行 介绍 


信息 流 广 告 


植 入 式 原 生 广 告 





程序 化 交易 广告 


图 5-1 竞价 广告 产品 

搜索 广告 在 莞 价 广 告 乃 至 整个 在 线 广告 中 都 有 着 旗舰 产品 的 地 位 。 除 了 它 的 变 
现 能 力 和 市 场 规模 方 面 的 优势 ， 更 重要 的 是 ， 一些 在 计算 广告 中 非常 核心 的 产品 策 
略 和 技术 方案 都 来 源 于 搜索 广告 。 因 此 ， 对 搜索 广告 的 深入 理解 对 于 理 清 整个 竞价 
广告 市 场 非常 关键 。 我 们 在 本 草 中 对 搜索 广告 的 讨论 将 着 重 介绍 其 对 整个 广告 市 场 
的 引领 点 ， 而 其 中 最 天 键 的 一 项 ， 融 是 竞价 广告 产品 的 产生 和 相应 的 机 制 设 计 理 
论 。 如 何 设计 合理 的 市 场 规 则 和 定价 策略 ， 使 得 竞价 市 场 的 竞争 更 加 合理 充分 ， 对 
于 整体 收益 有 相当 大 的 影响 。 这 方面 有 关 安 观 市 场 上 的 讨论 在 竞价 时 代 显 得 非常 重 
要 ， 也 成 为 在 线 广告 领域 得 到 深入 研究 的 问题 ， 我 们 在 本 章 中 会 用 单独 一 节 来 讨论 
其 问题 框架 和 一 些 实用 方法 。 

在 竞价 广告 的 交易 逻辑 下 ， 展 示 广 告 领 域 也 产生 了 广告 网 络 这 种 批量 采购 各 种 
媒体 剩余 流量 ， 然 后 主要 按照 点 击 付费 的 方式 售卖 给 广告 主 的 产品 形式 。 这 种 产品 
形态 的 产生 对 于 提高 整个 展示 广告 市 场 的 流动 性 发挥 了 很 大 作用 。 广 告 网 络 中 竞价 


的 标的 物 有 两 种 : 一 是 上 下 文 页 面 中 的 关键 词 ， 这 是 直接 从 搜索 广告 衍生 而 来 的 ; 
二 是 根据 用 户 行为 加 工 的 兴趣 标签 ， 这 是 从 展示 广告 的 定向 逻辑 友 展 而 来 的 。 广 告 
网 络 的 竞价 环境 与 搜索 广告 有 所 不 同 ， 各 种 上 下 文 或 用 户 标签 的 有 效 性 差别 巨大 , 
另外 各 种 广告 位 的 差别 也 会 很 大 。 因 此 ， 除 了 完全 依照 seCPM 估 计 排 序 广告 外 ， 冷 局 
动 问题 以 及 各 种 复杂 环境 下 扣 击 率 的 归 一 化 非常 重要 。 这 些 实际 上 使 得 广告 网 络 的 
效果 优化 比 搜索 广告 更 有 挑战 性 。 

对 应 于 况 价 广告 的 产生 ， 需求 方 的 产品 和 技术 也 在 发 生变 化 。 其 中 关键 的 变化 
有 两 点 : 一 是 由 面向 广告 位 采 买 变 成 面向 人 和 群 的 跨 网 络 采 买 ; 二 是 帮助 广告 主 在 况 
价 环境 中 完成 量 的 保证 ， 这 一 点 是 竞价 市 场 不 再 直接 保证 的 。 能 达到 这 些 需求 方 目 
的 的 产品 我 们 叫 作 媒 体 采 买 平台 。 在 媒体 采 买 平台 里 ， 人 在 量 的 约束 下 完成 ROI 的 优 
化 的 问题 依然 存在 ， 并 且 变 得 比 在 线 分 配 问 题 更 加 困难 ， 这 也 成 为 高 端的 采 买 平台 
提供 的 服务 之 一 。 当 然 ， 搜 索 广告 的 媒体 及 买 和 ROI 优化 同样 十 分 重要 ， 这 项 专门 
的 服务 称 为 搜索 引擎 营销 (Search Engine Marketing , SEM), 
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提起 竞价 广告 ， 不 能 不 先 从 搜索 广告 说 起 。 搜 索 广 告 一 直 是 整个 在 线 广告 市 场 
中 市 场 份额 最 大 的 类 型 ， 更 重要 的 是 ， 像 竞价 、 类 搜索 的 广告 投放 架构 都 是 从 搜索 
广告 发 展 起 来 的 。 因 此 ， 我 们 非常 有 必要 深入 地 了 解 搜索 广告 ， 并 从 这 里 入 手 了 解 
整个 竞价 广告 市 场 。 

对 搜索 广告 这 个 产品 ， 不 同 搜索 引 警 提供 商 有 不 同 的 称呼 ， 如 paid search, 
search ad, sponsored search 等 。 这 些 词汇 概念 上 非常 相似 ， 但 也 略 有 差别 ， 
个 人 比较 倾向 于 采用 “sponsored search" ( 付费 搜索 ) 这 样 的 说 法 ， 而 “paid 
search”( 付费 搜索 ) 有 时 会 让 读者 对 是 谁 付费 产生 误解 。 至 于 “search 
ad" ( 搜索 广告 ) 实际 上 还 应 包括 搜索 引擎 中 的 其 他 广告 形式 。 有 关 搜 索 广 告 更 多 


的 育 景 和 概念 ， 大 家 可 以 进一步 参考 参考 文献 [42，53 ]。 
从 市 场 规模 来 看 ， 搜索 广告 占 整 个 在 线 广告 市 场 的 一 半 以 上 。 表 5-1 列 出 了 中 国 
市 场 综合 搜索 引擎 广告 和 垂直 搜索 引擎 广告 ( 如 淘宝 直通 车 ) SALA See. 
表 5-1 中 国 搜索 广告 市 场 规模 


201204 |2013Q1 | 2013Q2 | 2013Q3 | 2013Q4 | 2014Q1 | 2014Q2 | 2014Q3 


在 线 广告 整体 规模 ULT) 56. 344. 3815 | 422.2 
wea Ahk) | 3. 33. 31 31: 339 | 31 
FERA EAR) | 24 | 249 | x3 | 294 332 | 246 


搜索 广告 是 比较 典型 的 竞价 广告 产品 ， 其 特点 是 广告 主 残 录 标的 物 ( 在 这 里 是 
天 键 词 ) 的 广告 展示 机 会 展开 担 卖 式 的 竞争 ， 并 根据 竞争 结果 依次 占据 该 广告 展示 
的 若干 位 置 。 这 与 第 4 章 中 的 展示 量 合约 是 截然 不 同 的 : 首先 ， 量 的 保证 不 复 存 在 , 
广告 主 需要 自行 调整 效果 与 量 的 平衡 ; 其 次 ， 价 格 的 约定 也 被 去 挥 ， 每 个 广告 主 都 
可 以 随时 调整 各 关键 词 上 的 出 价 。 下 面 介绍 搜索 广告 的 具体 产品 形式 。 


5.1.1 告 产 品 形态 














搜索 广告 是 以 上 下 文 查询 词 为 粒 硫 进行 受众 定向 ， 并 按照 竞价 方式 售卖 科 CPC 结 
算 的 广告 产品 。 通 党， 搜索 广告 展示 在 搜索 结果 页 ， 如 图 5-2 所 示 。 搜 索 广告 创意 的 
展示 区 域 一 般 来 说 分 为 北 (north). (east). BS (south) 三 个 部 分 。 北 区 和 
东区 的 所 有 位 置 构成 同一 次 关键 词 提 卖 的 位 置 集合 ， 竞价 时 位 置 的 排序 为 {north, , 
north, , = , east, ,east,,…}， 这 基本 上 是 根据 各 个 位 置 点 击 率 的 高 低 排 列 的 。 同 
时 ， 并 不 需要 在 这 些 位 置 上 全 出 广告 ， 这 与 横幅 广告 有 显著 的 区 别 。 南 区 的 广告 ， 
不 同 的 搜索 引擎 有 不 同 的 产品 处 理 方法 ， 有 的 直接 照搬 北 区 广告 ， 有 的 则 直接 照搬 
东区 的 前 几 条 。 

搜索 广告 最 基本 的 形式 是 与 目 然 检 索 结果 一 致 的 文字 链 ， 一 般 会 加 底 色 和 角 上 


的 “推广 ” “推广 链接 ” "Ads" 等 字样 ， 以 区 别 于 自然 结果 ， 这 样 做 的 目的 是 让 那 
些 对 广告 没有 兴趣 的 人 尽量 少 减少 误 点 击 ， 从 而 降低 广告 主 的 无 效 消费 和 提升 用 户 
体验 。 

搜索 广告 竞价 的 标的 物 是 竞价 关键 词 ( bid term) ， 用 户 输入 的 查询 
(query ) 通过 与 关键 词 相 匹 配 来 确定 是 否 可 以 触发 该 条 广告 。 匹 配 的 方式 及 可 以 采 
取 简 单 的 精确 匹配 ， 也 可 以 有 更 多 的 扩展 方式 ， 查 询 扩展 也 是 搜索 广告 的 一 项 比较 
关键 的 产品 策略 。 

本 章 中 讨论 的 搜索 广告 主要 以 通用 搜索 引擎 为 监 本 。 实 际 上 ， 很 多 垂直 类 搜 
索 ， 特 别 是 电子 商务 类 搜索 也 有 很 强 的 广告 变现 能 力 ， 但 产品 形态 可 能 会 有 所 不 
同 ， 大 家 可 以 有 选择 性 地 与 下 面 讨论 的 问题 来 对 照 。 

在 互联 网 广告 的 整个 产品 谱系 当中 ， 搜 索 广 告 有 着 特殊 重要 的 地 位 ， 具 有 以 下 
鲜明 的 产品 和 技术 特点 。 

(1) 搜索 广告 的 变现 能 力 ， 即 ”eCPM 远 远 高 于 一 般 的 展示 广告 ， 其 市 场 重 要 程 
度 也 就 得 以 彰显 。 因 此 ， 与 搜索 广告 的 一 些 独特 问题 和 算法 的 研究 ， 受 到 了 高 度 的 
重视 。 而 搜索 广告 高 变现 能 力 最 关键 的 产品 原因 就 是 用 户主 动 输入 的 查询 直接 反映 
了 用 户 的 意图 。 

( 2 ) 搜索 广告 的 受众 定向 标签 ， 即 是 上 下 文 的 搜索 查询 。 由 于 搜索 词 非常 强 地 
表征 着 用 户 的 意图 ， 搜 索 广 告 可 以 进行 非常 精准 的 定向 。 相 对 这 样 的 上 下 文 信息 ， 
根据 用 户 历史 行为 得 到 的 兴趣 标签 的 重要 性 大 打折 扣 ， 这 一 方面 是 因为 其 信号 远 不 
如 搜索 词 强 烈 ， 另 一 方面 是 因为 用 户 这 样 明 确 意图 的 任务 是 决 不 能 被 打 断 的 ( 参见 
第 2 章 广告 有 效 性 原理 部 分 ) 。 因 此 ， 搜 索 广告 里 的 ecPM 由 一 般 情 形 下 的 r (a,u, 
c) 退化 成 了 r (a,c). 
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图 5-2 搜索 广告 竞价 位 置 示例 

( 3) 搜索 广告 的 展示 形式 与 自然 结果 的 展示 形式 非常 接近 ， 往 往 仅仅 在 底 色 和 
文字 链接 中 有 不 太 引 人 注目 的 提示 。 这 样 的 产品 设计 使 得 尼 有 原生 广告 的 意味 ， 也 
进一步 提高 了 广告 效果 。 但 另 一 方面 ， 这样 的 广告 结果 对 相关 性 的 要 求 远 远 超过 展 
示 广 告 ， 因 此 在 根据 查询 匹配 广告 时 需要 非常 精细 的 策略 和 技术 。 

(4) 从 搜索 广告 发 展 起 来 的 竞价 交易 模式 已 经 逐渐 发 展 成 为 互联 网 广告 最 主流 
的 交易 模式 。 这 一 模式 从 根本 上 改变 了 广告 的 运营 方法 ， 并 为 其 效果 的 快速 提高 释 
放出 巨大 的 生产 力 。 


—— 3z TA ` 
5.1.2 告 产品 新 形 工 


搜索 广告 的 产品 技术 重点 与 前 面 介绍 的 合约 广告 甜 别 很 大 ， 与 葛 价 的 展示 广告 
网 络 也 有 一 定 的 差别 。 从 产品 设计 的 角度 看 ， 搜 索 广 告 有 以 下 三 方面 的 探索 趋势 。 

(1) 丰富 文字 链 创意 的 展示 形式 让 其 更 富 表现 力 以 提高 点 击 率 。 

( 2 ) 利用 东区 对 相关 性 要 求 稍 低 的 特点 设计 一 些 拓 展 广告 产品 。 

(3) 优化 广告 与 自然 结果 的 关系 在 保证 相关 性 和 广告 效果 的 前 提 下 提高 收入 。 

图 5-3 中 给 出 了 搜索 广告 产品 新 形式 的 一 些 示例 ， 下 面 分 别 具 体 说 明 。 
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图 5-3 搜索 广告 新 产品 示例 

1 .超越 文字 链 的 创意 

显然 ， 监 色 超 链接 肯定 不 是 搜索 广告 的 产品 终点 。 随 着 搜索 结果 本 身 向 着 展示 
更 丰 语 、 获 取 内 容 更 和 直接、 行业 性 不 断 加 强 的 方向 友 展 ， 搜 索 广 告 也 在 探索 一 些 能 
传递 更 多 价值 的 展现 形式 ， 以 同时 提升 用 户 体 验 和 变现 效率 。 这 方面 的 探索 有 两 个 
ERIA. 

(1) 在 通用 广告 链接 上 增加 更 多 有 表现 力 的 信息 点 。 如 图 5-3 中 第 2 部 分 所 示 ， 
除了 标题 、 摘 要 这 些 文字 链 广告 创意 的 标准 内 容 以 外 ， 还 增加 了 广告 主 的 Logo、 主 
要 内 容 链 接 、 联 系 电话 等 内 容 。 实 践 证 明 ， 这 些 都 会 提高 广告 的 直接 效果 和 品牌 价 


值 。 更 重要 的 是 ， 这 样 的 发 展 方向 与 行业 基本 无 关 ， 可 以 规模 化 复制 ， 因 此 在 搜索 
广告 中 已 经 被 广泛 采用 。 

(2) 直接 展示 结构 化 的 广告 内 容 摘要 ， 甚 至 提供 一 些 可 直接 访问 的 功能 ， 这 样 
可 以 减少 用 户 跳 转 的 成 本 ， 提 高 推广 效率 。 如 图 5-3 中 第 1 部 分 所 示 ， 广 告 产品 直接 
展示 了 旅游 网 站 的 一 些 主 要 内 容 链接 ， 并 直接 在 结果 中 提供 了 订 机 票 和 酒店 的 快捷 
入 口 。 这 样 的 商业 化 结果 往往 直接 来 源 于 搜索 的 直接 到 达 产 品 ， 如 百度 的 阿拉 丁 、 
368 的 ”OneBox 等 ， 但 由 于 结果 是 付费 的 ， 因 此 也 应 该 归 为 广告 或 商业 化 内 容 。 需 
指出 ， 这 种 内 容 为 了 照顾 用 尸体 验 的 一 致 性 ， 往 往 不 能 完全 及 用 搜索 广告 的 况 价 方 
式 来 运营 ， 一 般 的 运营 方式 是 束 某 个 行业 进行 阶段 性 的 线 下 竞价 。 

上 面 的 这 种 友 展 方向 为 提升 搜索 广告 效果 提供 了 新 的 空间 ， 然 而 尚未 成 为 搜索 
广告 的 主流 。 原 因 在 于 这 种 模式 需要 分 行业 设计 产品 和 运营 方案 ， 规 模 化 程度 有 
BR ; 另外 如 果 直 接 对 接 单 品 ， 会 产生 与 个 性 化 重 定向 一 样 的 商品 库 对 接 等 复杂 的 工 
程 问题 ， 这 部 分 我 们 在 后 面 介绍 DSP 时 再 进行 讨论 。 

2. 纶 相关 广告 形式 


汽 围 内 可 以 增加 一 点 相关 性 要 求 稍 低 的 泛 化 内 容 ， 因 此 为 这 部 分 的 广告 产品 设计 也 
提供 了 新 的 空间 。 我 们 用 两 个 例子 来 介绍 这 方面 的 探索 。 

(1) 图 5-3 中 的 第 3 部 分 是 一 种 在 搜索 广告 中 单 见 的 寓 有 一 定 品牌 意味 的 广告 形 
陈 。 尼 是 以 广告 主 对 应 的 一 组 导航 类 搜索 天 键 词 ， 在 用 户 搜 索 这 些 词 时 展示 该 广告 
主 的 品牌 宣传 性 创意 。 这 样 的 产品 可 以 提升 广告 主 用 户 对 品牌 的 认 知 程度 和 后 续 竹 
TE. 

( 2) 图 5-3 中 的 第 4 部 分 是 一 些 搜索 引擎 提供 的 同类 推荐 功能 ， 在 此 例 中 ， 为 相 
天 的 旅游 类 网 站 。 显 然 ， 这 部 分 的 列表 和 排序 可 以 按照 竞价 广告 的 逻辑 来 运 吕 。 通 
过 这 一 广告 产品 可 以 为 搜索 引擎 提供 一 些 离 决策 稍 远 、 以 接触 潜在 用 户 为 目的 的 广 


告 。 如 图 中 的 例子 ， 携程 的 用 户 可 能 不 一 定 用 过 同城 网 ， 但 是 在 此 处 看 到 以 后 或 许 
会 尝试 并 对 其 友 生 兴趣 。 当 然 ， 这 样 的 产品 绝对 不 能 在 搜索 左 侧 的 结果 中 展示 ， 
为 那样 会 引起 用 户 对 结果 相关 性 的 质疑 。 

3 .原生 化 探索 

搜索 广告 从 一 开始 就 具有 原生 广告 的 特点 : 它 的 商业 化 结果 与 自然 结果 一 样 ， 
由 用 户 的 主动 意图 触发 ， 并 且 展 示 形 式 上 与 自然 结果 相差 不 大 。 实 际 上 ， 有 相当 比 
例 的 用 户 是 完全 无 法 区 分 自然 结果 和 广告 结果 的 。 因 此 ， 探 索 搜索 广告 与 内 容 的 自 
然 结合 ， 以 越 来 越 “原生 ”的 方式 投放 广告 ， 也 是 产品 的 重要 方向 。 

与 其 他 搜索 引 警 不同， 百度 的 搜索 广告 从 一 开始 就 是 混 排 在 自然 结果 中 的 竞价 
排名 方式 ， 而 类 似 于 图 5-2 的 标准 形式 是 后 来 才 逐 渐 发 展 起 来 的 ， 但 这 种 混 排 的 形式 
实际 上 一 直 存 在 于 百度 的 广告 产品 中 ， 并 且 对 营 收 仍然 发 挥 着 重要 的 作用 。 这 种 混 
排 虽 然 豪 贬 不 一 ， 而 且 在 一 部 分 查询 上 实际 上 降低 了 结果 的 质量 ， 但 是 可 以 说 是 搜 
索 广告 原生 化 的 一 种 探索 。 

另外 一 个 原生 化 的 趋势 ， 在 有 些 直 接 面 向 商品 的 信息 类 搜索 中 ， 像 图 5-4 中 那样 
提供 结构 化 内 容 结果 时 ， 在 其 中 混入 商业 化 结果 ， 并 进行 统一 排序 。 与 只 提供 自然 
结果 相 比 ， 这 可 以 增强 变现 能 力 ; 与 只 提供 广告 结果 相 比 ， 这 可 以 避免 需求 不 足 市 
来 的 结果 质量 下 降 。 这 样 的 广告 ， 也 可 以 称 为 “商品 直达 式 广告 ”。 
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共 技 到 月 饼 相 关 产品 13467 件 ”查看 更 多 >> 
图 5-4 商品 直达 式 搜 索 广告 示例 
我 们 认为 ， 搜 索 广告 实际 上 是 比 信息 流 广告 更 加 重要 的 原生 广告 起 源 ， 而 且 搜 
索 广 告 的 一 些 重要 特点 可 以 被 借鉴 到 原生 广告 平台 的 产品 之 中 ， 这 一 点 在 第 7 章 介 
绍 原生 广告 时 再 讨论 。 


5.1.3 二 产品 


除了 产品 形式 上 的 创新 ， 搜 索 广 告 的 投放 和 优化 策略 也 是 产品 的 重要 一 环 。 要 
了 解 产 品 策略 方面 的 关键 点 ， 我 们 先 来 看 一 下 搜索 广告 决策 的 基本 过 程 。 

如 图 5-5 所 示 ， 搜 索 广告 的 整个 决策 过 程 可 以 分 为 查询 扩展 、 检 索 、 排 序 、 放 
置 、 定 价 等 几 个 阶段 。 查 询 扩 展 是 搜索 广告 独 有 的 策略 ， 目 的 是 给 广告 主 上 自动 地 拓 
展 相关 的 查询 词 ， 扩 大 采 买 流量 ; 广告 检索 和 将 候选 广告 根据 eCPM 排序 是 广告 系 
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统 较为 通用 的 核心 流程 ( 本 章 后 面 介绍 广告 网 络 时 再 讨论 ) ; 而 定价 是 
党 核心 的 策略 ( 在 下 一 节 机 制 设计 中 将 重点 介绍 ) . 





图 5-5 搜索 广告 决策 过 程 示 意 

需要 说 明 ， 在 搜索 广告 中 ， 排 序 的 依据 ， 即 eCPM， 可 以 简单 地 表示 成 r ( a ， 
c)=u (a,c): bid, (a ) 。 不 过 在 实际 产品 中 ， 点击 率 u ”这 一 项 会 被 质量 度 
(quality score) 所 替代 ， 而 后 者 除了 考虑 点 击 率 ， 还 需要 综合 诸如 落地 页 质量 
等 其 他 因素 ， 得 到 更 全 面 的 对 广告 质量 的 评价 ， 其 目的 是 为 了 避免 广告 主 的 恶意 行 
为 、 促 进 市 场 长 期 发 展 等 。 而 在 本 书 中 ， 为 了 说 明基 本 概念 和 算法 ， 将 主要 考虑 点 
击 率 的 作用 。 

1. 查 询 扩 展 

查询 扩展 是 搜索 广告 的 一 项 关键 策略 。 对 广告 主 来 说， 从 浩 若 烟 海 的 关键 词 中 
找到 符合 自己 需求 的 组 合 绝 非 易 事 。 因 此 ， 搜 索引 警 会 提供 一 些 将 广告 中 的 关键 词 
匹配 到 更 多 相关 查询 的 服务 ， 常 见 的 几 种 匹配 方式 如 下 。 

(1) 精确 匹配 ， 即 不 对 广告 主 提供 的 关键 词 做 任何 形式 的 扩展 ， 保 证 忠实 按照 
广告 主意 图 精准 执行 。 精 确 匹配 的 执行 方式 是 首先 将 用 户 输入 的 查询 分 词 ， 例 
如 ，“ 英 语 培训 ”这 个 查询 ， 可 以 分 成 { 英 语 ， 培 训 } 这 个 词 集合 ， 当 这 个 词 集合 三 
广告 主 设 定 的 关键 词 集合 完全 一 致 时 ， 就 触 友 了 精确 匹配 。 以 “英语 培训 ”这 个 关 
键 词 为 例 ， 在 精确 匹配 方式 下 ， 可 能 触发 广告 的 有 “英语 培训 、 培 训 英语 ”这 两 个 
查询 。 


(2) 短语 匹配 。 当 用 户 的 查询 完全 包含 三 告 主 天 键 词 及 天 键 词 ( 包括 天 键 词 的 
同义词 ) 的 插入 或 题 倒 形态 时 ， 融 认为 匹配 成 功 ， 可 以 触 友 相应 的 广告 候选 。 仍 
以 “英语 培训 ”这 个 天 键 词 为 例 ， 在 短语 匹配 方式 下 ， 可 能 触 友 广告 的 搜索 有 “ 英 
语 培训 、 英 语 培 训 暑 期 班 、 哪 个 英语 培训 机 构 好 、 英 语 的 培训 、 英 语 相关 塔 训 、 英 
文 培训 ”等 。 但 像 “ 英 语 歌 曲 、 电 脑 塔 训 ” 这 样 的 词 融 不 会 触及 。 这 种 方式 是 用 较 
精细 的 概念 匹配 较 宽泛 的 概念 ， 因 此 一 般 来 说 还 是 比较 精准 的 。 

( 3 ) 广泛 匹配 。 当 用 户 的 查询 词 与 广告 主 的 关键 词 高 度 相 关 时 ， 即 使 广告 主 并 
未 提交 这 尝 和 查询 词 ， 也 可 能 被 匹配 。 仍 以 天 键 词 “英语 培训 ”为 例 ， 在 广泛 匹配 方 
式 下 ， 可 能 会 触 友 “外 语 学 习 班 、 四 级 证 书 ” 这 样 的 查询 。 广 泛 匹 配 的 逻辑 并 没有 
清晰 的 定义 ， 一 般 来 说 ， 都 是 用 数据 挖掘 的 算法 上 自动 获得 。 因此， 虽然 打开 广泛 匹 
配 可 以 获得 较 多 的 流量 ， 但 是 流量 的 精准 性 往往 会 打 一 定 的 折扣 。 

(4) 否定 匹配 。 由 于 短语 匹配 和 广泛 匹配 都 是 系统 目 动 完成 ， 难 免 会 出 现 一 些 
匹配 不 精准 的 结果 。 因 此 ， 需 要 同时 向 广 告 主 提供 否定 匹配 的 功能 ， 即 明确 指出 哪 
些 词 是 不 能 被 匹配 的 ， 这 样 可 以 灵活 地 关 停 一 些 低 效 的 流量 。 

豆 语 匹配 和 广泛 匹配 都 属于 典型 的 折 词 方式 ， 将 其 与 否定 匹配 相 结合 ， 广 告 主 


BE, 搜索 引擎 提供 的 拓 词 方式 未 必 是 对 广告 主 最 佳 的 ， 我 们 后 面 介绍 SEM 产 品 时 会 


2. 广 告 放置 

当 广 告 候选 完成 排序 以 后 ， 需要 分 别 确定 北 区 和 东区 的 广告 条 数 ， 这 个 环节 称 
为 广告 放置 ( ad placement ) 。 由 于 这 两 个 区 域 构成 一 个 统一 的 竞价 队列 ， 实 际 上 
是 要 分 别 设 定 进入 北 区 和 进入 东区 的 条 件 ， 其 中 最 关键 的 是 进入 北 区 的 条 件 。 

北 区 是 黄金 的 广告 展示 位 置 ， 对 于 搜索 广告 的 收入 至 关 重要 。 一 般 来 说 ， 通 用 
搜索 引擎 的 广告 收入 中 绝 大 部 分 都 来 自 于 北 区 ， 因 此 北 区 广告 的 平均 条 数 与 收入 直 


接 相 天 。 但 同时 由 于 北 区 广告 直接 压低 了 上 自然 结果 的 位 置 ， 必 然 会 对 用 户 体 验 产 生 
一 定 的 影响 。 因 此 ， 要 达到 商业 利益 与 用 户 体 验 较 好 的 平衡 ， 我 们 人 在 关注 收入 指标 
时 也 要 特别 关注 北 区 广告 的 数量 和 质量 。 往 往 在 考察 一 项 新 算法 对 RPM 的 影响 时 ， 我 
们 也 应 同时 天 注 整个 搜索 引擎 的 北 区 广告 平均 条 数 (North Foot Print , NFP, Ek 
Average Show Number , ASN) ， 而 在 NFP 显 车 变化 时 ， 对 应 的 RPM 变化 往往 没有 大 
大 的 参考 价值 。 

确定 一 条 广告 能 否 进入 北 区 要 考虑 两 个 天 键 因 素 : 一 是 该 广告 相关 性 是 否 
够 ; 二 是 该 广告 的 RPM 是 否 足 够 。 前 者 是 为 了 确保 用 户 体 验 ， 后 者 是 为 了 高 效 地 利用 
展示 位 置 。 另 外 ， 一 般 来 说 北 区 还 会 设 定 一 个 广告 条 数 的 上 限 。 根 据 整 体 NFP 的 约束 
和 收入 的 目标 ， 我 们 可 以 很 容易 通过 数据 模拟 的 方法 确定 相关 性 和 RPM 的 最 优 辣 值 ， 
这 些 我 们 将 在 第 13 章 中 再 进行 讨论 。 

前 面 说 过 ， 搜索 广 告 的 决策 一 般 来 说 不 太 考虑 用 尸 u 的 影响 ,但 是 在 确定 北 区 广 
告 条 数 这 个 问题 上 是 个 例外 ， 这 就是 个 性 化 的 广告 放置 。 由 于 个 人 偏好 、 对 广告 了 
解 程度 的 不 同 ， 不 同 的 用 尸 对 广告 的 容忍 度 和 点 击 率 呈现 出 明显 的 舌 别 : 有 一 部 分 
用 尸 忆 是 会 跳 过 广告 ， 直接 从 目 然 结果 开始 浏览 ; 但 也 有 一 部 分 用 户 或 者 对 广告 不 
太 分 辨 、 或 者 对 其 接受 程度 高 ， 会 将 广告 与 自然 结果 一 样 看 待 ， 因 此 产生 大 量 点 
击 。 很 显然 ， 对 前 一 类 用 户 ， 应 该 降低 北 区 广告 条 数 ， 这 样 在 不 显著 减少 收入 的 情 
况 下 可 以 换 来 更 好 的 用 户 体 验 ; 而 对 后 一 类 用 户 ， 应 该 在 有 符合 条 件 的 广告 时 ， 尽 
可 能 用 足 北 区 的 位 置 。 


LM 


5.1.4 A mÆ 


1.Google AdWords 


Google 


AdWords 


Adwords 是 Google 推 出 的 关键 词 竞价 广告 产品 ， 每 年 为 Google 创造 百 亿 级 美 
元 的 营 收 。 在 产品 的 最 初 阶段 ，AdWords 是 以 搜索 词 为 定向 条 件 ， 按 当时 最 流行 的 
CPM 方 式 售卖 ， 可 惜 销售 结果 不 理想 。 后 来 采用 了 Overture 的 CPC 售 卖方 式 ， 并 创造 
性 地 在 cPC 的 售卖 方式 中 引入 了 点 击 率 的 概念 ， 通 过 广告 的 点 击 率 表 达 广 告 的 相关 
性 ， 取 得 了 非常 高 的 营 收 。 

Overture 发 明 CPC 售 卖方 式 的 时 候 广 告 的 投放 方式 很 简单 ， 只 是 以 广告 主 的 出 
价 排序 ， 出 价 最 高 的 广告 赢得 曝光 的 机 会 。Google ”发 现 了 此 模式 的 缺陷 : 出 价 最 
高 的 广告 赢得 了 很 多 曝光 ， 但 如 果 没 人 上 点击， 平台 还 是 没有 收入 。 因 此 ，Google 将 
策略 改变 为 在 投放 过 程 中 预 估 每 条 广告 的 点 击 率 ， 然 后 按 点 击 率 和 出 价 的 乘积 对 广 
告 排序 ， 这 也 就 形成 了 现在 竞价 广告 普遍 采用 的 根据 eCPM 决 策 的 逻辑 。 

在 引入 点 击 率 来 表达 相关 性 后 ， 在 cect hak se SE. AR. F 
台 都 有 利 的 生态 。 在 此 生态 下 ， 广 告 主 可 以 通过 选择 关键 字 来 定向 目标 受众 ， 并 通 
过 改善 广告 创意 提高 点 击 率 的 方式 降低 出 价 。Goog1le 通 过 给 用 户 投放 点 击 率 高 和 出 
价 高 的 广告 提高 收益 。 因 为 给 用 户 每 次 投放 都 是 点 击 率 高 的 “个 性 化 ”广告 ， 所 以 
用 户 在 使 用 搜索 引擎 时 看 到 了 更 多 相关 付费 信息 ， 降 低 了 广告 对 用 户 的 干扰 。 

相关 性 提高 后 ， 广 告 主 就 会 以 更 低 的 出 价 赢 取 更 多 的 点 击 ， 所 以 广告 主 就 有 动 
力 通过 更 精准 的 关键 词 条件 和 更 好 的 广告 创意 去 提高 广告 的 点 击 率 。 整 个 系统 的 营 
收 也 融 相 应 增长 了 。26813 年 ，Goog1le 财 报 中 Google Websites 的 收益 达到 了 374 亿 
美元 后 ， 而 这 主要 来 自 于 Google AdWords 这 一 款 搜索 广告 产品 。 

需要 说 明 ， 为 了 简化 概念 ， 这 里 介绍 的 Adwords 是 其 过 去 的 产品 范畴 。 目 前 ， 
Google 已 经 将 其 展示 广告 网 络 、 移 动 广告 网 络 的 需求 方 入 口 统一 在 Adwords 产 品 
下 ， 目 的 是 为 广告 主 提 供 一 个 统一 市 场 (universal  arketplace) ,方便 统一 的 
效果 跟踪 优化 ， 这 实际 上 也 是 广告 产品 面向 需求 方 接口 的 一 个 重要 趋势 。 

2 .淘宝 直通 车 


» A55 Bibs 

相 比 于 Adwords 这 种 通用 搜索 引擎 的 广告 产品 ， 淘 宝 直 通 手 是 C2C 电子 商务 
公司 淘宝 专门 服务 于 卖家 的 广告 产品 。 如 图 5-6 所 示 ， 淘宝 直通 车 广告 主要 出 现在 淘 
叹 站 内 搜索 结果 页 上 。 但 是 由 于 商品 搜索 的 结果 展示 与 通用 搜索 引擎 有 很 大 区 别 ， 
相应 的 广告 展示 也 有 很 大 不 同 。 在 图 5-6 中 ， 广 告 只 出 现在 页 面 的 东区 和 南 区 。 

淘宝 直通 车 的 前 身 是 雅虎 直通 车 ， 卖 家 可 以 在 雅虎 搜索 和 雅虎 网 站 上 投放 广 
告 ，2668 年 改名 为 淘宝 直通 车 。 开 始 的 广告 排名 规则 非常 简单 ， 即 出 价 高 的 广告 主 
赢得 投放 机 会 。 之 后 淘宝 也 完善 了 广告 策略 ， 开 始 及 用 与 Adwords 一 样 的 eCPM 排 序 
方式 。 相 比 之 前 的 广告 排名 规则 ， 由 于 投放 的 广告 相对 来 说 点 击 率 都 比较 高 ， 使 得 
卖家 的 转化 率 提升 ， 而 淘宝 也 因为 宝贝 整体 的 点 击 率 提升 获得 更 多 的 营 收 ， 形 成 共 
赢 的 局 面 。 

与 通用 搜索 引擎 的 广告 主 来 自 各 行 各 业 不 同 的 是 ， 淘 宝 直 通车 的 广告 主 来 自 于 
淘宝 平台 上 的 卖家 和 群体。 淘宝 与 它 的 广告 主 之 间 基 本 是 共生 的 关系 ， 这 使 得 淘宝 对 
其 广告 主 有 更 大 的 影响 力 ， 并 在 如 下 的 几 个 方面 有 显著 的 优势 。 

(1 ) 广告 主 可 以 推广 单 品 , 并 且 直 接 复 用 商品 的 图 片 、 摘 述 等 信息 ， 而 不 需要 
针对 广告 渠道 制作 创意 ， 这 使 得 大 量 中 小 卖家 使 用 直通 车 的 额外 成 本 很 低 。 

(2) 站 内 搜索 由 于 与 用 户 购 买 意图 强 相 天 ， 因 此 广告 的 效果 较 好 。 
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图 5-6 淘宝 直通 车 广告 示例 

( 3 ) 由 于 淘宝 对 其 广告 主 全 部 转化 流程 的 了 解 ， 使 得 淘宝 直通 车 在 利用 后 续 数 
据 优 化 广告 系统 ， 如 转化 预 个 、 商 品 上 下 以 同步 等 方面 ， 都 有 着 一 般 搜索 广告 难以 
达到 的 深入 程度 。 

因此 ， 虽 然 淘宝 直通 车 仅仅 是 一 个 素 直 搜索 引擎 的 广告 系统 ， 生 人 态 体系 却 支 撑 
了 阿里 巴巴 这 一 中 国 最 大 互联 网 公司 大 部 分 的 营 收 和 利润 ， 也 是 淘宝 变现 的 主要 途 
径 之 一 。 这 个 例子 告诉 我 们 ， 在 一 些 高 商业 价值 的 素 直 搜索 引擎 ( 如 电 商 、 房 产 、 
汽车 、 应 用 下 载 ) 之 中 ， 利 用 搜索 广告 的 产品 体系 进行 变现 是 需要 最 优先 考虑 的 流 
量变 现 方式 。 


5.2 位 EE ligi 


以 搜索 广告 为 代表 的 竞价 广告 实际 上 是 像 拍 卖 那样 销售 广告 展示 机 会 。 也 就 是 
说 ， 系 统 根据 广告 主 的 出 价 以 及 由 此 计算 出 的 ecPM 决 定 谁 可 以 得 到 某 次 展示 的 广告 
位 。 在 竞价 广告 初始 阶段 ， 出 价 是 广告 主 阶段 性 调整 的 ; 而 到 了 广告 实时 交易 阶 
段 ， 广 告 主 可 以 对 每 次 展示 实时 调整 出 价 握 。 但 是 从 拍卖 市 场 的 宏观 角度 看 ， 这 两 种 
竞价 没有 本 质 差 别 。 

让 我 们 先 来 看 看 怎样 描述 竞价 广告 问题 ， 并 从 宏观 市 场 的 角度 了 解 一 些 重 要 结 
论 。 如 图 5-7 Pao, 假设 有 一 组 广告 位 可 以 被 占用 ， 将 这 些 广告 位 按照 其 经 验 价值 
排名 ， 分 别 记 为 s=1，2，…，S ( 对 横幅 广告 而 言 ， 这 里 的 s 一 般 为 1 ) 。 在 某 次 广 
告 请 求 中 ， 有 一 组 广告 a=1 ，2，…，A 出 价 参与 拍卖 ， 每 个 广告 的 出 价 记 为 b， 系 统 
将 前 s 个 高 出 价 的 广告 依次 放 到 前 面 排序 好 的 S 个 广告 位 上 ， 这 样 的 问题 称 为 位 置 
拍卖 (position auction). 。 根 据 前 文 的 讨论 ， 当 某 个 广告 a 被 放 在 s 位 置 上 时 , 
其 期 望 收益 即 eCPM 为 r,.=H.v,。 这 里 我 们 作 了 一 些 假设 ， 比 如， 点击 率 LSE s 
有 关 ， 而 点 击 价值 v MSS a 有 关 ， 这 些 假设 在 搜索 广告 给 定 某 具 体 关 键 词 的 情 
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图 5-7 位 置 担 卖 问题 示例 
如 何 设计 这 样 的 位 置 拍卖 问题 中 的 一 些 重要 机 制 往往 对 整个 竞价 市 场 的 收益 、 
稳定 性 、 公 平 性 等 有 着 巨大 的 影响 ， 这 一 类 问题 称 为 机 制 设计 问题 。 在 广告 中 常见 
的 机 制 设计 间 题 包括 定价 、 市 场 保留 价 、 价 格 挤 压 等 。 


5.2.1 定价 问题 


围绕 位 置 扣 卖 最 重要 的 机 制 设计 是 所 谓 的 定价 (Pricing ) 问题 ， 它 探讨 的 是 
在 一 次 位 置 担 卖 中 给 定 各 参与 者 的 出 价 以 及 他 们 的 期 望 收益 ， 如 何 对 最 后 获得 某 个 
位 置 的 广告 主 收取 合适 的 费用 。 

讨论 定价 问题 乍 听 起 来 有 些 多 余 ， 有 人 会 说 按 照 广告 主 自 己 的 出 价 收取 不 束 可 
以 了 吗 ? 为 了 解释 研究 此 间 题 的 动机 ， 我 们 先 来 看 看 下 面 的 例子 : 假设 有 某 个 单位 
置 ( s=1 ) 的 广告 机 会 在 竞拍 ， 开 始 有 两 个 广告 主 参与 ， 甲 出 价 1 元 ， 乙 出 价 2 元 ， 当 
然 乙 赢 得 了 此 次 竞价 ， 如 果 按 照 其 出 价 来 收费 ， 市 场 束 向 他 收取 2 元 的 费用 。 在 广告 
市 场 里 ， 这 一 拍卖 机 会 还 会 重复 出 现 ( 对 应 于 不 断 产 生 的 展示 ) ， 因 此 广告 主 可 以 
也 存在 调整 出 价 的 机 会 ， 假 设 乙 在 发 现 自己 。” ”2 元 钱 能 拿 到 流量 以 后 ， 自然 就 会 想 


到 ， 是 不 是 可 以 调 低 出 价 ， 用 更 低 的 成 本 拿 到 流量 ? 乙 将 一 直 不 断 党 试 ， 直 到 把 出 
价 调 低 到 1.61 元 ， 发 现 继续 调 低 融 拿 不 到 位 置 了 。 于 是 系统 稳定 在 甲 出 价 1 元 ， 
乙 出 价 1.01 元 。 此 时 假设 又 有 一 个 广告 主 内 加 入 竞争 ， 并 希望 赢 下 此 广告 位 ， 那 
么 以 此 类 推 ， 他 在 不 断 调 整 后 将 会 出 价 1.862 元 ， 市 场 的 收入 也 融 是 1.62 元 。 我 们 
有 可 能 通过 调整 定价 策略 来 影响 系统 的 轧 收 蔓 吗 ? 答案 是 肯定 的 。 比 如 我 们 在 甲 出 1 
Jv, OW 2 元 参与 竞价 时 ， 并 不 对 获胜 的 乙 收 2 元 ， 而 是 收取 其 下 一 名 即 甲 的 出 
价 1 T, 那么 甲 束 没有 动力 调 低 其 出 价 了 。 那 么 当 肉 加 入 时 ， 残 需要 出 价 2 元 以 上 
才 可 以 赢得 竞价 ， 市 场 的 收入 也 融 变 成 了 2 元 ( 不 论 丙 出价 多 少 ， 我 们 都 按 其 下 一 
位 即 乙 的 出 价 来 收费 ) 。 这 个 简单 的 例子 告诉 我 们 ， 在 广告 这 样 的 参与 者 可 以 针对 
同一 个 标的 物 不 断 调 整 出 价 的 拍卖 环境 中 ， 通 过 聪明 的 定价 策略 完全 可 能 为 整个 市 
场 创造 更 高 的 收益 和 更 好 的 市 场 稳定 性 。 

在 定价 问题 上 ， 我 们 在 微观 上 的 直 学 未 必 可 以 推广 到 宏观 市 场 。 从 整个 市 场 的 
角度 来 看 ， 我 们 重点 需要 研究 的 是 市 场 处 于 稳定 状态 下 的 收益 和 其 他 特性 。 而 所 请 
稳定 ， 指 的 是 整个 竞价 系统 处 于 纳什 均衡 (Nash equilibrium) 状态 ， 也 即 每 个 广 
告 主 都 通过 出 价 得 到 了 最 符合 自己 利益 的 位 置 。 对 某 一 次 位 置 亮 价 来 说 ， 其 对 称 纳 
什 均衡 ( symmetric Nash equilibrium) 状态 可 以 表示 为 下 式 : 

Hela = qs) 2 Iu (vs —q@),Vt>s 
(5.1) 
Us(Vs — qs) 2 pe(Vs — GM-1), Vt < s 

注意 这 里 的 下 标 意 义 有 所 调整 ， 这 里 的 v， 指 的 是 排 在 s 位 置 上 的 广告 的 点 击 
价值 ， 并非 s 位 置 市 来 的 点 击 价值 ， 而 q， 指 的 是 市 场 向 排 人 在 s 位 置 上 的 广告 收取 
的 费用 ， 即 定价 ， 也 就 是 广告 主 的 单 次 投入 。 这 一 均衡 状态 的 意义 很 容易 理解 : 对 
于 最 终 位 置 排名 竞价 结果 中 的 每 一 条 广告 ， 其 收益 都 比 排 在 其 他 位 置 上 要 高 。 显 
然 ， 在 这 样 的 状态 下 ， 每 个 广告 主 都 达到 了 自己 最 优 的 状态 ， 整 个 系统 也 束 随 之 稳 


定 下 来 。 

在 公式 5 .1 中， 市 场 方 能 够 调整 的 策略 只 有 9q 的 确定 方式 ， 也 就 是 定价 策略 。 随 
着 定价 策略 的 不 同 ， 市 场 达 到 稳定 状态 时 的 宏观 收益 情况 和 稳定 的 程度 都 有 所 不 
Al. Al, 有关 况 价 市 场 宏观 性 质 的 研究 主要 目的 是 寻找 更 好 的 定价 策略 以 优化 整 
体 收益 。 由 于 位 置 况 价 问题 纳什 均衡 状态 的 数学 分 析 与 本 书 的 产品 和 技术 重点 有 一 
定 差 距 ， 因 此 不 再 介绍 这 方面 的 内 容 ， 有 兴趣 的 读者 可 以 阅读 参考 文献 [72]。 

在 线 广告 竞价 市 场 最 常见 的 定价 策略 是 GSP 方 案 ; 另外 有 一 种 VCG ( Vickrey- 
Clarke-Groves ) 定价 策略 ， 虽然 理论 上 比 GSP 更 合理 ， 但 是 由 于 原理 较 复杂 ， 向 广 
告 主 解释 起 来 有 难度 ， 因 此 在 实际 系统 中 采用 的 并 不 多 。 下 面 我 们 分 别 介 绍 这 两 种 
定价 策略 。 

1. 广 义 第 二 高 价 ( GSP ) 

先 来 看 看 什么 叫 第 二 高 价 (second price) %。 所 谓 第 二 高 价 ， 指 的 是 在 只 有 
一 个 位 置 的 拍卖 中 ， 向 赢得 该 位 置 的 广告 主 收取 其 下 一 位 广告 主 的 出 价 ， 这样 的 拍 
卖 也 叫 作 Vickrey 拍 卖 。 在 搜索 广告 这 种 有 多 个 位 置 的 拍卖 过 程 中 ， 很 容易 直觉 地 
将 第 二 高 价 策略 推广 成 下 面 的 策略 : 对 赢得 每 一 个 位 置 的 广告 主 ， 都 按照 他 下 一 位 
的 广告 位 置 出 价 来 收取 费用 ， 这 就 是 广义 第 二 高 价 ，。 

第 二 高 价 和 广义 第 二 高 价 的 直觉 合理 性 在 上 面 已 经 有 所 解释 。 但 是 实际 上 ， 第 
二 高 价 是 单位 置 拍卖 时 的 最 优 定价 策略 ， 然 而 广义 第 二 高 价 却 不 是 多 位 置 拍卖 时 的 
最 优 定价 策略 ( 最 优 策略 是 下 面 要 介绍 的 VCG 定 价 ) 。 虽 然 并 非 理论 上 最 优 ,广义 第 
二 高 价 却 有 着 实现 简单 、 容 易 向 广告 主 解释 等 诸多 操作 中 的 优点 ， 因 此 在 实际 的 竞 
价 广告 系统 中 是 最 主流 的 定价 策略 。 

如 果 是 按照 CPM 结算 ， 那 么 广义 第 二 高 价 可 以 非常 直接 地 应 用 。 然 而 在 CPC 结 
算 的 竞价 广告 系统 中 ， 广 告 主 的 出 价 是 针对 点 击 的 ， 而 竞价 是 针对 eCPM 的 ， 因 此 要 
对 两 者 换算 一 下 以 实现 cPC 情 形 下 的 广义 第 二 高 价 ”， 其 定价 公式 如 下 : 


i. = Hs+1bs+1/Hs +A (5.2) 

如 果 将 等 式 两 边 同 时 乘 以 X，， 可 以 看 出 广义 第 二 高 价 实际 上 仍然 是 eCPM 上 的 第 
二 高 价 。 

读者 可 以 自行 验证 ， 不 论 是 cPM 还 是 cpPC 结 算 ， 在 广义 第 二 高 价 的 情形 下 ， 对 
某 广告 主 的 定价 是 一 定 不 会 大 于 其 出 价 的 。 实 际 上 ， 这 种 定价 策略 也 同样 适用 于 
CPs 结 算 的 竞价 市 场 ， 并 且 只 需要 将 公式 5 .2 中 的 k 换 成 uv ” 即 可 。 公 式 5 .2 最 后 的 
A， 一 般 为 广告 系统 结算 货币 的 最 小 单位 ， 如 1 美 分 ， 这 是 一 种 历史 惯例 ， 也 在 某 种 
程度 上 让 广告 主 心 理 上 感觉 更 加 公平 。 

2 .VCG 

VCG 定 价 ”“…*.” 是 Vickrey、Clarke 和 Groves 在 研究 竞价 系统 均衡 状态 时 得 
到 的 一 种 理论 上 较为 优越 的 定价 策略 。 其 基本 思想 是 : 对 于 赢得 了 某 个 位 置 的 广告 
+, 其 所 付出 的 成 本 应 该 等 于 他 占据 这 个 位 置 给 其 他 市 场 参 与 者 带 来 的 价值 损害 。 
在 这 一 原则 下 ，VCG 的 定价 策略 可 以 表示 为 公式 5. 3. 


qs = 》 (H-1 — Me) (5.3) 


t>s 

这 种 定价 策略 直 党 上 的 合理 性 很 容易 理解 。 理 论 分 析 表 明 ，vCG 定 价 策略 的 优越 
性 体现 在 如 下 几 个 方面 : 首先 ， 在 这 种 定价 策略 的 稳定 状态 下 ， 整个 市 场 是 
truth-telling 的 。 所 调 truth-telling, 可 以 理解 为 每 个 广告 主 都 找到 了 上 自己 
的 最 优 状态 。 其 次 ， 相 对 于 其 他 的 定价 策略 ， 这 种 定价 向 广告 主 收取 的 费用 是 最 少 
的 。 在 单 广告 位 拍卖 的 情形 下 ，VCG 定价 策略 就 退化 为 第 二 高 价 策略 。 

虽然 有 以 上 诸多 的 优点 ，VC6G 定 价 在 竞价 广告 中 却 并 不 是 一 种 主流 的 方式 。 这 主 
要 是 由 于 这 种 定价 方式 的 逻辑 过 于 复杂 ， 比 较 难 以 向 广告 主 解释 清楚 ; 另外 在 广告 
主 和 媒体 存在 博 认 关系 的 情形 下 ， 媒 体 是 否 正 确 地 计算 了 “给 其 他 市 场 参与 者 市 来 
的 价值 损害 ”也 很 难 验证 。 不 过 这 种 定价 方法 也 有 其 市 场 空间 ,有些 广告 厂商 ， 如 


Facebook， 在 实际 的 竞价 广告 系统 中 惑 采 用 了 这 一 定价 机 制 。 
5.2.2 市 场 保留 价 


为 了 控制 广告 的 质量 和 保持 一 定 的 出 售 单价 ， 竞 价 广告 市 场 往往 要 设置 一 个 赢 
得 拍卖 位 置 的 最 低 价格 ， 这 一 价格 我 们 称 为 市 场 保 留 价 ( Market Reserve 
Price, MRP) ， 俗 称 “ 起 价 ” 或 “底价 ”。 广 告 主 的 出 价 只 有 在 高 于 市 场 保留 价 时 
才能 获得 竞价 机 会 ， 同 时 在 赢得 某 个 拍卖 位 置 后 ， 如 果 根 据 定价 策略 算出 的 付费 低 
于 市 场 保留 价 ( 以 广义 第 二 高 价 为 例 ， 很 容易 验证 这 种 情况 是 可 能 发 生 的 ) ， 也 需 
要 调整 到 市 场 保留 价 的 水 平 上 。 

确定 MRP 是 竞价 广告 重要 的 产品 策略 ，MRP 定 得 过 低 或 过 高 都 不 利于 整个 市 场 的 
收益 最 大 化 。 一 般 来 说 ， 当 竞争 较 充 分 、 广 告 主 深度 足够 时 ，MRP 可 以 设置 得 比较 
高 ; 反之 则 应 适当 降低 。 市 场 保留 价 的 设置 有 两 种 方法 ， 一 是 对 整个 竞价 市 场 末 用 
同样 的 保留 价格 ， 二 是 根据 不 同 标的 物 ( 如 搜索 广告 里 的 天 键 词 ) 的 特性 设置 不 同 
的 保留 价格 。 如 果 按 照 后 一 种 方法 设置 ， 显 然 应 该 对 那些 竞争 程度 较 激烈 的 关键 词 
设置 比较 高 的 MRP。 

在 搜索 广告 的 实践 中 还 有 一 点 : 北 区 和 东区 的 广告 虽然 共享 一 个 竞价 队列 ， 但 
为 了 保证 北 区 黄金 位 置 得 到 较 好 的 变现 ， 我 们 往往 会 对 北 区 单独 设 一 个 较 高 的 MRP。 

关于 如 何 计算 最 优 的 市 场 保 留 价 也 有 一 些 理论 研究 和 实践 方法 。 简 单 来 说 ， 一 
个 特定 关键 词 的 最 优 起 价 仅 与 竞价 和 质量 度 的 分 布 有 关 ， 通 过 拟 合 其 被 保留 价 截 断 
的 分 布 为 核心 ， 可 以 通过 理论 上 的 计算 公式 来 解 出 最 优 起 价 。 自 付费 搜索 的 商业 模 
式 成 型 以 来 ， 搜 索引 警 便 在 不 断 党 试 调整 关键 词 竞拍 的 起 价 ， 在 市 场 可 以 接受 的 前 
提 下 提升 自身 的 收益 水 平 。 在 “2881 年 ，Yahoo! 将 其 起 价 统一 设置 为 5 美 分 ，2668 
fF, Yahoo! ”结合 理论 的 推导 结果 ， 对 部 分 雅虎 搜索 关键 词 进 行动 态 调价 ， 不 同 价 
值 的 关键 词 被 调整 为 不 同 的 起 价 。 此 次 调价 后 ， 根 据 持续 观测 ， 起价 提升 在 2668 年 


第 三 季度 对 收入 的 影响 为 +13%。 而 Goog1le 并 没有 公开 上 自己 的 起 价 计算 方法 与 过 程 ， 
但 是 一 般 认 为 其 起 价 的 制定 策略 是 业界 较为 先进 的 ， 早 在 Yahoo! ”实行 动态 起 价 之 
前 ， 研 究 人 员 即 发 现 Google 的 起 价 也 是 动态 的 。 

无 论 是 调整 市 场 整体 的 MRP， 还 是 在 不 同 流量 划分 上 动态 设置 MRP， 其 基本 原理 
都 是 根据 竞价 广告 主 的 eCPM 分 布 ， 找 到 一 个 使 得 填充 率 没 有 明显 下 降 的 CPM 底价 ， 
然后 再 根据 质量 度 倒 算 其 CPC 搬 价 。 实 际 上 ， 由 于 考虑 质量 度 ， 动 态 底 价 可 以 同时 与 
(a, u, c) 这 三 个 参数 都 有 关系 ， 做 到 完全 的 动态 。 有 天 动态 市 场 保留 价 的 原理 和 
具体 算法 可 以 进一步 参考 参考 文献 [64]。 


tt cece ”结算 的 广告 产品 中 ,eCPM ”可 以 表示 成 点 击 率 和 出 价 的 乘积 ， 即 
r=hv=kbid..。 但 是 在 竞价 的 机 制 设 计 中 ， 有 时 会 对 此 公式 做 一 些微 调 ， 把 它 变 成 
下 面 的 形式 : 

r= pu^ - bidcpc (5.4) 

其 中 的 k 为 一 个 大 于 8 的 实数 。 可 以 考虑 两 种 极端 情况 来 理解 K 的 作用 : 当 k 一 co 
时 ， 相 当 于 只 根据 点 击 率 来 排序 而 不 考虑 出 价 的 作用 ; 反之 ， 当 k 一 8 时 ， 则 相当 于 
只 根据 出 价 来 排序 。 因 此 ， 随 着 k 的 增 大 ， 相 当 于 我 们 在 挤 压 出 价 在 整个 竞价 体系 中 
的 作用 ， 因 此 我 们 把 这 个 因子 叫做 价格 挤 压 ( squashing ) 因子 。 

价格 挤 压 因 子 的 作用 主要 是 能 够 根据 市 场 情况 更 主动 地 影响 竞价 体系 向 着 需要 
的 方向 发 展 。 比 如 说 ， 如 果 发 现 市 场 上 存在 大 量 的 出 价 较 高 但 品质 不 高 的 广告 主 ， 
则 可 以 通过 调 高 k 来 强调 质量 和 用 户 反 馈 的 影响 ; 如 果 发 现 市 场 的 竞价 激烈 程度 不 
够 ， 则 可 以 通过 降低 Kk 来 鼓励 竞争 ， 如 果 存 在 短期 的 财务 压力 ， 这 样 就 可 以 短期 使 得 
整体 营 收 有 所 上 升 ; 如 果 为 了 鼓励 广告 主 提高 广告 质量 和 相关 性 ， 则 可 以 通过 提高 K 
来 降低 出 价 的 影响 。 


5.2.4 EIMMART 


我 们 用 一 个 具体 的 例子 来 直观 地 说明 上 述 的 综合 竞价 和 定价 过 程 : 假设 有 一 组 
广告 竞争 一 个 有 多 个 位 置 的 搜索 广告 展示 机 会 ， 其 出 价 和 系统 对 其 对 其 点 击 率 的 
预 估 如 表 5-2 中 的 第 2 列 和 第 3 列 所 示 ， 那 么 计算 出 的 eCPM 以 及 在 按照 GSP 定 价 策 
略 并 取 不 同 ”Kk 值 时 向 每 个 广告 主 收取 的 费用 如 表 5-2 的 后 面 几 列 所 示 忠 。 从 表 5 -2 的 
例子 中 可 以 看 出 ， 经 过 GSP 的 CPC 定价 并 不 是 降序 的 ， 并 且 存 在 低 于 MRP ( 如 第 3 位 的 
广告 ) 的 情形 ， 这 时 需要 将 其 强制 设 为 MRP ; 另外 ，K 会 对 排序 和 计价 都 有 明显 的 影 
i. 


表 5-2 GSP 广告 竞价 过 程 示例 ( 单位 : 元 MRP=0.25 ) 


出 价 REX (06) 排序 /定价 ( = 1.0) 排序 /定价 (= 2.5) 排序 /定价 (= 0.5) 
0.80 1/0.50 1/0.25 2/0.25 


3/0.28 





4/0.25 
希望 进一步 了 解 具体 实现 过 程 的 读者 ， 可 以 参考 13 .1 市 中 的 示例 代码 。 人 至 于 按 
VCG 定 价 策略 同 每 个 广告 主 收取 的 费用 ， 读 者 可 以 自行 探讨 。 


竞价 广告 产品 在 搜索 广告 逐渐 成 熟 的 同时 也 在 展示 广告 领域 得 到 了 广泛 应 用 。 
对 展示 广告 而 言 ， 合 约 式 的 售卖 方式 必然 无 法 消耗 所 有 的 库存 ， 实 际 销 售 中 为 了 控 
制 售卖 比例 以 获得 更 高 的 品牌 溢价 空间 ， 未 通过 合约 售卖 的 广告 流量 很 多 。 这 部 分 
流量 我 们 称 为 剩余 流量 (remnant inventory). 。 竞 价 交易 模式 的 产生 为 这 部 分 流 
量 提供 了 变现 的 机 会 ， 催 生 了 广告 网 络 这 一 产品 。 广 告 网 络 的 产品 功能 是 批量 聚合 


各 媒体 的 剩余 流量 ， 按 照 人 群 或 上 下 文 标签 的 流量 





切割 万 式 售 卖 给 广告 主 。 


对 于 一 些 中 小 网 站 而 言 ， 甚 至 完全 没有 按 合 约 售卖 的 流量 ， 而 是 将 所 有 的 广告 
位 都 交 给 广告 网 络 来 变现 ， 图 5-8 中 给 出 了 一 个 网 页 上 所 有 广告 网 络 位 置 的 示例 ， 其 
中 所 有 用 续 框 标 出 的 部 分 都 是 区 由 广告 网 络 来 变现 的 。 
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图 5-8 广告 网 络 广 告示 例 


5.3.1 广告 网 络 产 品 形态 
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会 子 : 只 需 


在 广告 位 的 剩余 流量 上 调用 广告 网 络 的 投放 代码 或 ”SDK， 而 不 用 关心 每 次 展示 的 投 
放 结 果 。 人 在 实际 运营 中 ， 广 告 网 络 既 有 竞价 的 售卖 方式 ， 也 有 合约 的 售卖 方式 。 不 
过 我 们 这 里 重点 讨论 的 是 其 竞价 部 分 
竞价 广告 网 络 的 产品 逻辑 如 图 5-9 ”所 示 。 这 里 的 产品 关键 ， 一 


售卖 的 标的 主 


要 是 人 群 ， 而 广告 位 被 淡化 了 。 ( 根据 上 一 章 的 讨论 知道 ， 合 约 广告 是 很 难 淡化 广 
告 位 标的 的 。 ) 另外 ， 当 流量 满足 多 个 广告 活动 要 求 时 ， 简 单 地 采用 竞价 模式 而 不 
用 考虑 量 的 合约 。 


Af, 人 和 群 。 AES 人 和 群 ， AE. 


J Š e 位 ， 
广告 位 ， 
J A 告 位 ; 


ar 位 





图 5-9 广告 网 络 广告 示例 

根据 人 群 划分 模式 的 不 同 ， 广 告 网 络 产 品 其 实 有 两 个 来 源 : 一 方面 来 源 于 搜索 
引擎 友 展 出 来 的 上 下 文 广告 产品 ， 即 根据 页 面 中 提取 的 关键 词 来 投放 广告 ; AA 
面 来 源 于 展示 广告 的 兴趣 标签 向 精细 化 友 展 后 。 无 论 上 下 文 还 是 兴趣 ， 都 可 以 看 成 
是 对 受众 的 划分 方式 ， 因 而 它们 都 统一 在 广告 网 络 这 一 产品 中 。 

况 价 广告 网 络 有 下 面 几 个 关键 的 产品 特点。 

(1) 竞价 方式 不 向 广告 主 做 量 的 约定 ， 而 是 根据 变现 能 力 ， 即 ”ecCPM ， 来 决定 
每 次 展示 分 配给 哪个 广告 主 。 因 此 ， 与 合约 式 的 广告 系统 不 同 ， 广告 网 络 大 大 降低 
了 为 保证 合约 而 设计 复杂 的 在 线 分 配 算法 的 必要 性 ， 使 得 其 中 的 计算 技术 可 以 把 精 
力 集中 在 对 eCPM 的 估计 上 。 

(2) 由 于 是 按 人 群 售卖 ， 广 告 网 络 会 极力 淡化 媒体 和 广告 位 的 概念 。 由 于 淡化 
了 媒体 的 概念 ， 广 告 网 络 中 很 难 拿 到 品牌 溢价 高 的 广告 位 ， 一般 来 说 也 不 适合 广告 
主 的 品牌 类 需求 。 

( 3) 从 商业 角度 来 看 ,广告 网 络 的 销售 模式 与 合约 的 方式 相 比 也 有 两 点 优势 : 


秆 先是 无 需 再 满足 广告 主 品牌 独占 的 要 求 ， 这 使 得 让 国美 和 苏宁 同时 参与 同一 个 人 
群 的 竞价 、 提 高 市 场 流动 性 成 为 可 能 ， 而 在 合约 广告 中 ， 这 一 点 是 很 难 做 到 的 ; 其 
次 ， 由 于 广告 网 络 根 据 实际 消耗 来 结算 ， 一 般 来 说 财务 上 及 用 广告 主 先 充值 的 方 
式 ， 这 区 别 于 合约 广告 投放 结束 后 计算 的 方式 ， 结 果 使 得 广告 网 络 运 营 方 的 现金 流 
状况 大 为 改善 。 

广告 网 络 存在 CPM、CPC 和 CPS 等 不 同 的 结算 方式 ， 不 过 最 主流 的 方式 是 CPC。 我 
们 有 必要 从 计算 的 角度 分 析 一 下 CPC 结算 的 合理 性 : 首 乞 ， 从 需求 万 来 看 ， 既 然 是 
各 种 媒体 的 不 同 广告 位 聚合 在 一 起 售卖 ， 广 告 主 无 法 知道 每 个 媒体 上 广告 的 具体 位 
置 。 而 位 置 对 于 广告 的 曝光 效果 影响 巨大 ， 因 此 实际 上 广告 主根 本 无 法 评估 每 次 展 
示 的 出 价 ， 而 在 点 击 上 出 价 ， 这 个 问题 融 没 那么 严重 了 。 另 外 从 供给 方 来 看 ， 由 于 
淡化 了 广告 位 的 概念 ， 并 且 聚 合 了 多 个 媒体 的 流量 ， 广告 网 络 可 以 接触 到 同一 个 用 
户 比 较 丰 富 的 网 络 行 为 ， 并 且 知 道 每 次 展示 所 在 的 媒体 与 广告 位 位 置 ， 所 以 比 广告 
主 更 容易 估计 点 击 率 。 根 据 第 1 草 中 的 讨论 ， 由 广告 网 络 负责 估计 点 击 率 ， 需 求 方 根 
据 对 点 击 价 值 的 估计 来 出 价 ， 是 最 合理 的 市 场 分 工 。 

但 是 ， 对 于 一 些 有 特殊 业务 需求 或 者 特殊 数据 来 源 的 媒体 或 媒体 组 合 来 说 ， 有 
时 候 硕 望 能 够 直接 从 广告 网 络 的 广告 库 中 挑选 广告 ， 并 能 够 创造 比 广告 网 络 目 动 挑 
选 更 多 的 价值 。 因 此 ， 某 些 广 告 网 络 也 会 对 一 部 分 合作 供给 方 开放 广告 库 供 其 自行 
挑选 ， 广 告 网 络 的 这 种 运营 模式 可 以 称 为 联盟 (affiliate ) 模式 。 


5.3.2 广告 网 络 产品 策 


广告 网 络 中 的 广告 决策 过 程 与 搜索 广告 相 比 ， 整 个 流程 要 简单 一 些 ， 如 图 5-16 
所 示 ， 分 为 检索 、 排 序 、 定 价 等 几 个 阶段 。 昌 然 流程 相对 简单 ， 但 是 广告 网 络 在 广 
告 检 索 和 排序 两 个 环节 上 面临 的 问题 比 搜索 更 加 通用 ， 因 此 在 产品 策略 方面 也 存在 
着 不 小 的 挑战 。 





检索 排序 定价 
图 5-16 竞价 广告 网 络 广告 决策 过 程 示意 

1. 广 告 检索 

广告 与 搜索 面 对 的 文档 其 实 不 同 ， 它 往往 是 一 个 用 布尔 表达 式 表达 的 投放 条 
件 ， 而 不 是 可 以 简单 看 成 一 个 词 的 集合 。 搜 索 那 样 的 面向 词 集合 的 检索 方案 对 布尔 
表达 式 来 说 不 是 最 有 效 的 。 在 搜索 广告 条 件 下 ， 这 一 问题 并 不 突出 ， 但 是 在 展示 广 
告 网 络 中 ， 这 样 的 差别 就 值得 重视 了 。 

搜索 广告 检索 与 搜索 基本 一 致 ， 用 常规 的 倒 排 索引 技术 就 可 以 解决 。 展 示 广 告 
网 络 与 搜索 广告 不 同 ， 由 于 用 户 意图 不 明确 ， 我 们 往往 要 将 更 多 的 天 键 字 、 兴 趣 标 
签 同 时 用 于 检索 过 程 ， 而 实践 也 证 明 ， 使 用 更 多 的 标签 对 于 提高 效果 是 有 直接 帮助 
的 。 将 很 多 的 标签 同时 用 于 一 次 检索 也 与 搜索 中 的 短 查询 情形 差别 很 大 ， 这 可 以 描 
述 为 一 个 相关 性 检索 问题 ， 需 要 探索 专门 的 方法 。 

以 上 两 个 问题 主要 都 与 具体 的 算法 有 关 ， 我们 在 介绍 广告 技术 时 再 详细 讨论 。 

2 .广告 排序 

我 们 都 知道 ， 竞价 广 告 中 排序 的 准则 是 ecPM， 而 在 CPC 结算 的 情形 下 ， 对 eCPM 
的 估计 转化 为 对 点 击 率 的 估计 问题 。 应 该 说 ， 在 搜索 广告 和 展示 广告 网 络 这 样 的 竞 
价 广告 产品 中 ， 点 击 率 预测 的 问题 才 开 始 面 临 真正 的 挑战 。 

与 广告 位 较 规整 、 点 击 率 较 高 的 搜索 广告 相 比 ， 广告 网 络 中 的 CTR 预 测 有 两 方面 
的 困难 。 首 先 ， 点 击 数 据 更 加 稀 玻 ， 而 且 需 要 同时 考虑 上 下 文 和 用 户 量 方面 的 信 
息 ， 这 使 得 各 种 新 广告 、 新 策略 的 冷 启动 问题 非常 突出 。 如 何 设 计 好 一 个 合理 可 行 
的 冷 启动 策略 ， 对 展示 广告 网 络 来 说 至 关 重 要 。 其 次 ， 广 告 网 络 中 由 于 广告 位 的 差 
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后 面 讨论 点 击 率 预 佑 技术 时 将 主要 以 展示 广告 的 复杂 情形 为 场景 展开 讨论 ， 并 将 其 
与 搜索 广告 的 特例 对 比 。 


LM 


5.3.3 eRe 


实际 的 广告 网 络 有 两 种 不 同 的 业务 方向 ， 一 种 是 广泛 承接 各 种 广告 库存 并 面向 
所 有 品类 的 广告 主 进行 服务 ， 称 为 水 平 广告 网 络 ; 另 一 种 则 专门 服务 于 某 一 种 类 型 
的 广告 主 ， 如 电 商 、 游 戏 等 ， 并 寻找 相 天 的 媒体 资源 来 搭建 网 络 ， 称 为 垂直 广告 网 
络 。 下 面 分 别 举例 介绍 这 两 种 类 型 的 广告 网 络 。 

1.Google Display Network 

Go gle Display Network 

AdSense 是 Goog1le 进 入 展示 广告 领域 的 第 一 个 广告 产品 ， 与 AdWords 只 有 通过 
采用 关键 词 来 定向 人 群 不 同 ，AdSense 定 向 人 群 的 方式 更 加 多 样 化 ， 可 以 通过 一 系 
列 天 键 词 或 主题 来 确定 相关 的 网 页 ， 或 者 通过 人 群 兴 趣 、 性 别 等 人 群 、 历 史 访 问 信 
息 等 属性 来 定向 人 群 ， 也 可 以 通过 这 些 定 向 条 件 的 组 合 精确 地 选择 想到 达 的 网 页 和 
人 和 群 。 相 比 AdWords， 广告 主 可 以 有 机 会 接触 更 多 的 网 页 和 流量 。 

除了 定向 人 和 群 方面 的 不 同 ， 在 广告 竞价 环节 ，Adsense 和 Adwords 的 流程 基本 一 
致 ， 也 是 根据 ecPM 对 广告 排序 。 从 Adsense 的 定向 环节 和 竞价 环节 的 不 同和 相似 我 
们 可 以 发 现 ， 相 比 ”Adwords 的 生态 圈 中 只 有 Google、 广 告 主 以 及 用 户 而 言 ， 
AdSense 多 了 网 站 ( 媒体 ) 这 一 参与 方 。 在 AdSense 的 生态 圈 中 ， 媒 体 方 会 通过 
调整 广告 位 置 和 格式 、 给 页 面 补充 合适 的 关键 字 以 吸引 更 多 同类 广告 等 方式 提高 点 
击 率 。 广 告 主 方 则 会 通过 选择 合适 的 定向 条 件 和 出 价 提高 点 击 率 。 在 这 种 机 制 下 , 
用 户 会 看 到 更 多 相关 广告 ， 而 平台 方 也 会 有 比较 好 的 收益 。 

在 AdSense 之 后 ，Google 又 于 2668 年 收购 了 展示 广告 领域 的 巨头 


DoubleClick。 在 整合 旗下 Utunbe、Google ”Finance 以 及 AdSense 等 一 些 广告 资 
源 基础 上 ， 推 出 了 GDN ( Google Display Network ) 这 一 展示 广告 领域 最 重要 的 产 
品 之 一 。 由 原来 Adsense 这 种 为 搜索 广告 的 衍生 产品 存在 的 地 位 ， 进 化 到 独立 的 
GDN， 表 现 出 6oogle 对 展示 广告 领域 的 重视 和 独立 友 展 的 决心 。GDN 的 下 游 包括 
DoubleClick ”Adx 和 一 些 TD， 平 台 会 将 它 竞价 比较 低 的 流量 导 给 DoubleClick 
Adx 进 行 实时 竞价 ， 使 得 一 些 长 尾 流 量 可 能 会 以 比较 高 的 价格 卖 出 ， 而 “TD 则 会 从 多 
个 ADX 中 买 流量 并 优化 RO0I。 目 前 ，GDN 是 世界 上 最 大 的 展示 广告 网 络 ， 可 以 到 达 96@% 
的 互联 网 用 户 和 超过 266 万 的 网 站 。 

ft Google 2613 年 的 财报 中 ，Google Network Members”Websites 的 收益 
达到 了 131 亿 美元 。 


2 .淘宝 客 
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淘宝 客 是 阿里 巴巴 集团 底下 的 广告 产品 之 一 ， 它 通过 淘宝 联盟 获得 广告 ， 利 用 
淘宝 和 天 猫 网 以 外 的 网 站 为 阿里 巴巴 平台 上 的 卖家 带 来 流量 和 转化 ， 并 且 根 据 转化 
的 比例 给 网 站 一 定 的 佣金 。 加 入 淘宝 客 网 络 的 媒体 主要 是 为 淘宝 等 商家 市 来 流量 ， 
因此 阿里 妈妈 把 它们 称 为 “淘宝 客 ”。 淘 宝 客 的 投放 方式 是 淘宝 客 网 站 通过 API 拿 到 
相关 的 广告 ， 并 自行 决定 在 某 个 页 面 或 对 某 种 用 户 展 示 什 么 样 的 商品 ， 这 是 一 种 联 
盟 的 方式 。 

直觉 上 ， 由 于 淘宝 掌握 的 用 户 数据 和 运算 能 力 远 远 超 过 一 个 个 孤立 的 淘宝 客 网 
站 ， 让 淘宝 负责 广告 决策 ,应 该 可 以 达到 更 好 的 eCPM ， 不 过 由 于 一 些 购物 导航 或 购 
物 分 享 类 型 的 个 人 博客 或 网 站 可 以 利用 软文 的 形式 非常 有 针对 性 和 全 面 地 介绍 和 宣 
传 某 种 产品 ， 其 效果 远 远 高 于 普通 的 在 线 广 告 。 因 此 ， 这 种 将 广告 库 开放 并 由 淘宝 
客 网 站 自行 选择 广告 的 方式 ， 其 变现 能 力 在 充分 优化 后 也 相当 可 观 。 不 过 由 于 后 一 


种 方式 无 法 规模 化 ， 并 且 通 党 只 在 转化 流程 相当 完善 的 情形 下 才 有 意义 ， 因 此 并 不 
见得 适用 于 一 般 的 广告 网 络 ， 但 在 电 商 垂 直上 广告 网 络 中 是 不 错 的 方式 。 
由 于 广告 库 开放 ， 淘宝 客 的 供给 方 操 作 方 式 很 多 样 : 既 有 返利 网 上 站、 独立 博客 
等 媒体 ， 也 有 以 论坛 、 微 情 、 邮 件 、QQ 群 等 作为 推广 方式 的 个 人 ， 还 有 的 通过 自己 
开通 淘宝 客 来 输入 购买 商品 链接 以 赚 取 佣金 ， 目 的 在 于 获得 一 定 的 折扣 。 
2812 年 12 月 21 日 ， 阿 里 巴巴 宣布 重启 “阿里 妈妈 ”品牌 ， 放弃 “淘宝 联盟 ”。 
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搜索 广告 和 竞价 广告 网 络 虽 然 效果 差别 很 大 ， 但 从 产品 本 质 上 看 ， 属 于 同一 泄 
畴 。 竞 价 广告 市 场 的 产生 对 需求 方 的 技术 也 提出 了 新 的 要 求 : 原来 通过 直接 与 媒体 
签订 保 量 合约 的 及 买方 式 变 成 通过 况 价 为 广告 主 完成 量 与 质 需求 的 及 买 产 品 。 具 体 
地 说 ， 这 样 的 产品 需要 具备 一 项 基本 功能 ， 即 按照 广告 主 预算 跨 媒体 一 站 式 采 买 人 
群 的 功能 。 另 外 ， 还 可 以 具备 一 项 高 级 功能 ， 即 机 器 决策 的 RoI 优 化 功能 。 

这 样 的 需求 可 以 分 解 为 两 个 基本 问题 : 一 是 如 何 挑选 合适 的 目标 人 群 ， 二 是 如 
何 对 各 个 目标 人 群 给 出 合适 的 出 价 。 由 于 竞价 广告 平台 的 决策 过 程 对 于 需求 方 来 况 
是 个 黑 盒子 ， 要 解决 好 这 两 个 问题 其 实 并 不 容易 。 


5.4.1 Ext 
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是 搜索 引擎 营销 ， 即 SEM。 上 面 说 的 两 个 基本 问题 在 SEM 中 具体 表现 为 关键 词 选择 和 
出 价 。 对 SEM 来 说 ， 各 个 标签 即 关键 词 的 流量 是 互相 不 重 革 的 ， 这 与 展示 广告 受众 定 
同 标 签 之 间 可 以 进行 复杂 的 布尔 运算 不 同 ， 实 际 上 比 人 群 标签 优化 要 直接 一 些 。 

天 键 词 选择 和 出 价 两 个 问题 都 有 相当 的 难度 。 首 先 来 看 天 键 词 选择 ， 如 果 广 告 
主 提供 一 些 种 子 词 ， 那 么 这 个 问题 看 起 来 非常 类 似 于 5 .1.3 节 中 的 查询 扩展 问题 ， 但 


又 有 相当 大 的 区 别 : 搜索 引擎 进行 查询 扩展 的 目的 是 为 了 提高 目 己 的 营 收 ; 而 需求 
方 进行 关键 词 选择 的 目的 是 为 了 提高 广告 主 采 买 流量 的 ROI。 这 两 个 目标 显然 有 着 很 
大 的 区 别 ， 因 此 广告 主 更 信赖 代表 需求 方 利益 的 SEM 公司。 不 过 ”SEM 公司 由 于 数据 
来 源 的 问题 ， 需 要 长 期 的 数据 积 囚 才能 做 到 较 好 的 效果 。 同 时 ， 对 于 大 量 长 尾 的 小 
型 广告 主 ， 往 往 比较 难于 积累 起 足够 的 数据 用 于 优化 ， 因 此 这 类 SEM 公 司 服 务 的 对 象 
主要 是 中 型 以 上 的 广告 主 。 

出 价 的 问题 ， 传 统 的 认识 是 广告 主根 据 到 达 率 、 目 己 网 站 的 转化 率 和 客 单价 来 
估计 点 击 价值 ， 并 以 此 点 击 价 值 为 参考 来 出 价 。 不 过 这 忽略 了 一 个 问题 ， 那 束 是 各 
个 关键 词 的 转化 率 、 客 单价 和 市 场 竞 争 水 平 都 有 很 大 的 区 别 ， 因 此 只 有 在 不 同 关 键 
词 上 做 不 同 的 出 价 才 能 更 深入 地 优化 整体 采 买 的 ROoTI。 由 于 搜索 广告 的 定向 粒度 很 
细 ， 可 以 看 出 关键 词 选择 和 出 价 都 是 规模 很 大 的 优化 问题 ， 而 且 由 于 广告 网 络 半 封 
闭 的 竞价 机 制 ， 数 据 的 反馈 和 调整 都 不 够 及 时 ， 因 此 这 一 优化 问题 技术 挑战 是 比较 
大 的 。 


5.4.2 入 买 平台 


面向 展示 广告 网 络 的 一 站 式 采 买 平台 称 为 媒介 采 买 平台 ， 与 乙 类 似 的 概念 还 有 
交易 终端 (Trading Desk, TD) ， 可 以 认为 是 同一 类 的 产品 。 

从 市 场 友 展 来 看 ， 许 多 媒体 采 买 平台 都 是 4A 或 其 他 代理 公司 为 了 适应 市 场 扩 术 
形态 的 变化 ， 收 购 或 者 孵化 出 来 的 子 公 司 ， 这 从 图 1-9 中 两 部 分 产品 之 间 的 连 线 束 可 
以 看 出 来 。 在 竞价 广告 市 场 上 ， 广 告 主 量 的 需求 仍然 是 人 存在 的 ， 因 此 保 量 的 合约 并 
不 是 消失 了 ， 而 是 由 代理 与 媒体 之 间 下 沉 到 了 广告 主 与 媒体 采 买 平台 之 间 。 

里 然 概念 类 似 ， 但 是 媒体 采 买 平台 的 难点 与 SEM 有 所 不 同 。 媒 体 采 买 平台 的 技术 
挑战 主要 在 于 ROI 的 优化 部 分 ， 要 合理 地 选择 需要 的 受众 定向 条 件 ， 并 在 每 个 人 群 上 
优化 出 价 ， 以 保证 量 的 要 求 和 优化 收益 是 一 个 复杂 的 组 合 优化 问题 。 由 于 无 法 具体 


控制 每 一 次 展示 ， 其 困难 程度 要 高 于 后 面 实 时 竞价 的 情况 下 的 效果 优化 。 这 种 面向 
广告 网 络 中 非 RTB 流量 的 RoI 优 化 也 成 为 广告 技术 产品 的 一 个 重要 方向 。 
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5.4.3 - Rel 


对 于 非 实时 的 竞价 广告 产品 ， 需 求 方 的 优化 比较 困难 ， 因 此 主要 在 投资 回报 比 
较 高 的 SEM 中 得 到 了 充分 友 展 。 我 们 举 一 个 SEM 产 品 的 例子 供 大 家 参考 。 


EfficientFrontier 


we 
© EfficientFrontier. 

EF ( EfficientFrontier ) 开始 是 一 家 专门 从 事 SEMA SIRAZ Al, m 
来 也 涉足 展示 广告 网 络 的 优化 领域 。2811 年 ，EF 被 Adobe 旗下 的 Omniture 以 
4 亿美 元 的 价格 所 收购 ， 其 产品 成 为 Adobe Digital Market Suite 中 的 一 部 分 , 
称 为 Adobe AdLens。 收 购 时 ，EF 每 年 管理 着 6 亿美 元 以 上 的 搜索 引擎 广告 预算 以 及 
超过 4686 万 的 搜索 关键 词 ， 平 均 每 日 为 每 个 客户 投放 4688e 个 以 上 的 况 价 。 

M EF 这 家 公司 的 名 称 就 可 以 大 至 了 解 到 其 技术 方向 ， 他 们 的 业务 是 通过 关键 
词 选 择 和 出 价 为 搜索 广告 主 提供 大 量 关键 词 情形 下 的 ROI 优化 。EF 采用 是 金融 领 
域 的 投资 组 合 ( portfolio selection ) 理论 “方法 来 解决 这 两 个 问题 ， 而 
efficient frontier 也 是 这 一 金融 领域 中 的 术语 。 这 一 问题 是 通过 计算 的 方法 确 
定 一 个 投资 组 合 中 各 个 品种 的 投资 比例 ， 以 达到 期 望 收益 最 优 情 况 下 风险 最 小 的 理 
论 。 在 各 个 投资 期 望 收 益 水 平 下 ， 相 应 的 最 小 组 合 风 险 对 应 的 曲线 束 称 为 
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图 5-11 SEM 中 的 efficient frontier 示 意 

如 果 将 搜索 广告 里 的 标的 物 ， 即 天 键 词 ， 类 比 于 股票 ， 那 么 在 一 定 预算 的 限制 
下 分 配 各 个 关键 词 上 的 投入 以 求 达到 整体 RoI 的 最 优 ， 从 框架 上 看 非常 类 似 于 上 述 的 
股 资 组 合 问题 。 因 此 ，EF 公 司 按照 这 一 思路 ， 将 量化 金融 里 的 投资 组 合理 论 与 计算 
广告 技术 结合 起 来 ， 创 造 性 地 发 展 出 了 大 规模 的 关键 词 出 价 优 化 技术 。 图 5-11 中 给 
出 了 efficient ”frontier 的 一 个 示例 ,图 中 每 个 点 代表 一 个 广告 投放 设置 ， 即 关 
键 词 组 合 及 其 出 价 ， 而 每 一 个 组 合 也 就 对 应 了 一 个 收入 和 成 本 。 将 各 成 本 对 应 的 最 
高 收入 的 投放 设置 连接 起 来 ， 就 构成 了 efficient frontier 曲 线 。 找 到 这 条 
efficient ffrontier 曲 线 后 ， 给 定 广告 主 的 预算 ， 就 可 以 找到 最 佳 的 投放 策略 。 
在 可 选 的 关键 词 数量 很 大 时 ， 投 放 设 置 的 集合 规模 非常 大 ， 再 加 上 搜索 引擎 非 实时 
的 数据 反馈 ， 可 以 想见 此 优化 问题 的 困难 程度 。 

广告 主 优化 广告 投放 收益 的 问题 其 实 比 优化 股票 收益 还 要 复杂 。 因 为 广告 主 的 


收益 就 是 ROI， 而 无 论 是 估计 点 击 率 还 是 估计 点 击 价 值 ， 都 严重 依赖 于 数据 。 因 此 ， 
这 方面 数据 的 积累 实际 上 才 是 EF 最 核心 的 竞争 力 。 为 了 获得 更 多 的 数据 来 强化 其 竞 
争 力 ， 它 被 Adobe 旗 下 的 Omniture 收购 了 也 符合 逻辑 ， 因 为 Omniture 是 专门 提 
供 网 站 分 析 工 具 的 公司 ， 积 累 了 大 量 的 网 站 行为 数据 ， 这 对 于 优化 ROI 来 说 非常 有 价 
值 。 

除了 SEM, Adobe AdLens 也 开展 了 Facebook 等 展示 广告 优化 业务 ， 因 为 其 近 
术 对 于 展示 广告 、 搜 索 广告 来 说 具有 通用 性 一 一 从 广告 网 络 的 产品 角度 看 ， 二 者 的 
本 质 是 相通 的 。 


5.5 音 价 广告 与 会 约 广 和 i 
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在 了 解 了 竞价 、 合 约 这 两 类 主要 的 广告 交易 方式 后 ， 我 们 来 简要 对 比 一 下 它们 


从 供给 方 或 广告 市 场 方 来 看 ， 合 约 三 告 和 竞价 广告 的 对 比 可 以 类 比 于 计划 经 济 
和 市 场 经济 的 区 别 。 在 合约 广告 的 情况 下 ， 所 有 量 的 保证 和 质 的 优化 都 是 由 媒体 方 
的 广告 投放 机 来 统一 完成 ， 而 在 竞价 广告 的 情况 下 ， 市 场 只 负责 制定 竞价 和 收费 的 
规则 ， 而 各 广告 主 量 的 保证 完全 采用 市 场 竞 争 的 方式 来 完成 。 在 这 种 情况 下 ， 市 场 
方 需要 仔细 设计 安 观 竞争 机 制 ， 但 是 不 一 定 需要 实现 象 合约 广告 那样 的 交易 级 别 的 
计划 调度 。 

从 需求 端 来 看 ， 合约 广告 的 及 买方 式 对 广告 主 来 说 缺乏 透明 性 ， 唯 一 能 做 的 束 
是 在 合约 的 层面 预先 约定 好 一 些 最 关心 的 利益 条 款 ， 但 是 很 难 进 行 深入 的 优化 。 不 
过 ， 合约 的 及 买方 式 也 有 一 定 的 好 人 处， 特别 是 对 量 的 保证 可 以 有 预先 的 约定 ， 这 对 
于 品牌 性 质 较 强 的 广告 活动 来 说 比较 有 意义 的 。 

在 竞价 广告 中 ， 供 给 方 和 广告 主 的 约定 比较 松散 : 首先 ， 供 给 方 不 再 向 广告 主 
承诺 广告 投放 量 ; 与 此 相对 应 ， 操 击 单价 由 广告 主 自 行 决定 。 这 样 的 交易 远 辑 使 得 


广告 合同 由 首先 确保 量 的 结构 变 成 了 首先 确保 单位 成 本 的 结构 。 这 实际 上 是 非常 革 
命 性 的 变化 ， 它 使 得 广告 市 场 产 生 了 以 下 三 个 有 利于 大 幅 提 高 广告 效果 的 友 展 趋 
势 。 

( 1) 非常 精细 的 受众 定向 可 以 被 无 障碍 地 使 用 在 交易 中 ， 而 这 是 展示 量 合约 广 
告 很 难 做 到 的 。 由 于 这 一 点 ， 市 场 的 效率 得 到 了 巨大 提升 。 

(2) 大 量 的 中 小 广告 主 逐 渐 成 为 参与 竞价 的 主体 ， 这 使 得 市 场 的 规模 得 到 了 快 
速 扩张 。 

(3) 与 合约 广告 相 比 ， 竞 价 广告 中 数据 的 价值 得 以 彰显 ， 整 个 市 场 开始 以 数据 
为 核心 来 组 织 和 运营 广告 产品 。 


5.6 延 舍 思考 


1 .搜索 广告 南 区 的 产品 策略 在 不 同 搜索 引擎 中 差别 很 大 ， 请 从 用 户 产品 的 角度 
出 发 ， 谈 谈 你 认为 合理 的 策略 。 

2 .在 网 址 导航 类 产品 的 销售 中 ， 往 往 采取 按 月 线 下 竞价 然后 签订 广告 位 合约 的 
模式 ， 这 属于 合约 广告 还 是 竞价 广告 ? 

3 .广告 网 络 的 运营 的 关键 是 提高 市 场 的 流动 性 ， 即 广告 主 参与 竞价 的 积极 性 。 
为 了 提高 市 场 流动 性 ， 投 放 功能 、 受 众 定向 等 环节 有 哪些 产品 思路 ? 
本 书 由 [ePUBw.COM] 整理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
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加 强 ， 广 告 网 络 在 产品 形态 
方 彻底 开放 。 上 有 具体 而 言 ， 除 了 人 允许 广告 主 按照 已 经 定义 好 的 用 户 划分 来 购买 ， 
进一步 提供 广告 主 自行 选择 流量 和 在 每 次 展示 上 独立 出 价 的 功能 
然 要 求 询 价 、 出 价 和 竞价 在 展示 时 进行 ， 这 也 融 产 生 了 以 实时 竞价 即 RTB 为 核心 的 程 
序 化 交易 市 场 。 程 序 化 交易 产品 在 整体 产品 演进 过 程 中 的 位 置 如 图 6-1 所 示 。 


在 线 广告 及 展 到 竞价 阶段 ， 可 以 说 基本 的 计算 格局 已 经 建立 ， 大 多 数 重 要 的 产 
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图 6-1 程序 化 交易 广告 产品 
RTB ANTE, 使 得 广告 市 场 向 着 透明 的 比价 平台 的 方向 发 展 ， 这 样 的 平台 


品 和 技术 问题 也 都 浮 出 水 面 并 得 到 研究 。 然 而 ， 随 着 需求 方 优化 效果 的 要 求 进一步 
上 已 经 无 法 完全 满足 需要 ， 而 市 场 的 友 展 方向 是 向 需求 
还 要 
。 这 样 的 功能 ， 


必 


ante 


广告 交易 平台 ， 即 ADX， 其 主要 特征 即 是 用 RTB 的 方式 实时 得 到 广告 候选 ， 并 按照 其 
出 价 简单 完成 投放 决策 。 与 广告 交易 平台 对 应 的 采 买 方 ， 我 们 称 为 需求 方 平 台 即 
DSP。 在 这 样 的 交易 市 场 中 ， 需 求 方 对 于 流量 的 选择 和 控制 能 力 达到 了 极致 ， 因 此 其 
技术 和 算法 的 挑战 也 相当 大 ， 而 供给 万 则 变 成 了 简单 的 比较 平台 。 

从 需求 方 来 看 ， 定 制 化 的 用 户 划 分 能 力 使 得 广告 主 可 以 像 优 化 自己 的 推荐 系统 
那样 优化 广告 购买 ， 唯 一 的 区 别 是 这 个 推荐 系统 是 放 企 站 外 的 。 出 价 需求 的 存在 和 
广告 主 预算 范围 内 的 套利 要 求 ”DSP 具 备 点 击 率 预测 、 点 击 价值 估计 、 流 量 预测 、 站 
外 推荐 等 多 方面 的 运算 能 力 。 除 了 站 外 推荐 ， 广告 市 场 新 的 友 展 趋势 是 根据 广告 主 
提供 的 种 子 用 户 ， 利 用 海量 的 媒体 数据 为 广告 主 找到 行为 相似 的 潜在 用 户 。 这 样 的 
一 些 定向 方式 都 是 针对 (a, u) 组 合 的 定制 化 用 户 划 分 ， 它 们 使 得 在 线 广告 的 受众 
定向 精准 程度 达到 了 前 所 未 有 的 水 平 。 

在 需求 方 的 利益 得 到 了 充分 的 保证 以 后 ， 媒体 的 变现 手段 也 友 生 了 相应 的 变 
化 。 到 现在 为 止 ， 媒 体 至 少 有 四 种 常用 的 广告 变现 选择 : 担保 式 投 送 的 合约 售卖 方 
式 、 目 营 广 告 网 络 、 托 管 给 其 他 广告 网 络 、 通 过 RTB 变 现 。 如 何 动态 地 选择 这 四 种 模 
式 中 变现 价值 最 高 的 那 种 ， 以 最 大 化 媒体 收 葵 ， 这 是 供给 方面 临 的 市 场 需求 。 在 这 
样 的 需求 驱动 下 ， 产生 了 供给 方 平台 这 样 的 完全 优化 媒体 利益 的 产品 。 

除了 看 得 见 的 交易 模式 的 改变 以 外 ，RTB 的 产生 和 发 展 实际 上 还 催生 了 另外 一 个 
更 加 重要 的 市 场 : 数据 加 工 和 交易 市 场 。 开 放 的 交易 模式 使 得 广告 主 可 以 自由 地 使 
用 各 种 数据 指导 投放 ， 而 ”RTB 过 程 又 为 附 市 的 数据 传送 提供 了 天 然 的 基础 设施 。 
此 ， 在 程序 化 交易 时 代 ， 数 据 加 工 和 交易 规模 化 地 友 展 了 起 来 。 作 为 数据 加 工 与 交 
易 的 两 个 关键 产品 : 数据 交易 平台 (data exchange ) 和 数据 管理 平台 DMP 分 别 从 第 
三 方 数据 和 第 一 方 数 据 入 手 ， 为 市 场 提供 了 有 价值 的 数据 源 或 数据 加 工 服 务 。 了 解 
在 广告 中 的 数据 交易 逻辑 ,对 于 各 行业 大 数据 变现 的 落地 都 有 十 分 重要 的 指导 意 
K 


在 线 广 告 市 场 进入 到 这 个 阶段 以 后 ， 程序 化 交易 的 方式 已 经 成 为 举足轻重 的 力 
量 ， 它 使 得 整个 在 线 广告 市 场 越 来 越 向 着 数据 驱动 、 计 算 导 向 的 方式 前 进 。 我 们 在 
本 章 中 也 对 程序 化 交易 的 若干 种 主要 方式 以 及 对 应 的 供应 方 和 需求 方 产品 做 了 一 下 
小 结 ， 并 与 合约 导向 的 优先 销售 方式 进行 了 对 比 。 
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我 们 先 来 直观 地 解释 一 下 为 什么 广告 交易 会 向 实时 竞价 的 方向 友 展 。 竞 价 广 告 
网 络 中 的 受众 定向 虽然 可 以 很 精准 ， 但 是 还 是 会 有 一 些 完成 不 了 的 场景 。 例 如 ， 某 
广告 主 希 望 对 自己 的 流失 用 户 进行 一 次 广告 促销 ， 或 某 广告 主 希 望 广 告 平台 帮助 找 
到 与 其 用 户 类 似 的 潜在 用 尸 。 很 显然 ， 无 论 怎 样 选择 在 广告 网 络 中 的 人 群 标签 ， 都 
不 可 能 直接 完成 上 述 的 任务 。 实 际 上 ， 这 两 个 任务 有 一 个 共同 的 特点 ， 即 我 们 在 加 
工人 群 标签 的 过 程 中 需要 利用 到 广告 主 的 数据 。 这 样 的 标签 称 为 定制 化 用 户 标 签 
(customized audience segmentation), 

利用 定制 化 标签 的 投放 在 广告 网 络 中 并 非 完全 无 法 解决 : 对 于 最 常见 的 重 定 同 
标签 ， 及 用 由 广告 网 络 在 广告 主 网 站 布设 代码 的 方式 也 可 以 收集 人 群 和 投放 广告 ; 
而 对 于 一 般 的 定制 化 标签 ， 也 可 以 采用 由 广告 主 上 传 用 户 ID ( cookie 或 移动 设备 
ID) 集合 的 方案 ， 由 广告 网 络 来 决策 和 投放 ， 如 ”Facebook 的 广告 网 络 就 提供 这 样 
的 功能 。 不 过 ， 这 样 的 方案 仍然 仓 在 着 很 多 问题 。 

(1) 定制 化 标签 可 能 的 选择 是 与 广告 主 的 量 级 成 正比 的 ， 将 这 些 标签 集中 地 由 
广告 平台 加 工 使 用 ， 显然 是 一 个 低 效 的 解决 方案 。 

(2) 除了 定制 化 的 人 群 库 ， 需 求 万 往往 还 对 频次 、 时 间 、 地 域 等 诸多 因素 有 综 
合 决策 的 需求 ， 而 简单 地 上 传 用 户 ID 集合 显然 无 法 达到 这 样 的 目的 。 

( 3 ) 简单 的 人 群 库 交互 无 法 做 到 精细 的 出 价 和 预算 控制 。 

因此 ， 采 用 广告 网 络 这 样 的 封闭 式 竞 价 方案 是 无 法 规模 化 和 精细 化 地 针对 定制 


化 标签 进行 投放 的 。 什 么 样 的 解决 方案 才能 够 规模 化 呢 ? 其 实 很 简单 ， 只 要 把 竞价 
过 程 开 放 ， 在 广告 展示 时 由 需求 方 来 判断 是 人 否 需要 并 出 价 ， 就 可 以 解决 上 面 的 问 
题 ， 这 样 的 思路 残 产 生 了 实时 竞价 。 因 此 ， 我 们 认为 : 

用 定制 化 标签 指导 广告 投放 是 实时 竞价 的 天 键 产品 目标 。 

实时 竞价 的 交易 方式 不 仅仅 解放 了 相关 的 效果 类 广告 需求 ， 也 为 品牌 广告 创造 
了 全 新 的 机 会 。 我 们 知道 ， 品 牌 广告 的 核心 在 于 其 人 群 触 及 策略 ， 但 无 论 在 展示 量 
合约 广告 还 是 竞价 广告 网 络 中 ， 人 和 群 的 定义 方式 都 是 由 广告 平台 决定 ， 需 求 方 基本 
没有 加 工 的 目 由 。 然 而 ， 在 实时 竞价 交易 中 ， 服 务 于 品牌 广告 主 的 DsP 可 以 根据 市 场 
上 采 买 的 各 种 数据 为 某 个 特定 的 广告 主 加 工 特 有 的 人 群 ， 完 成 更 加 符合 其 市 场 策 略 
的 人 群 触及 。 因 此 ， 我们 会 发 现 ， 品 牌 广告 的 预算 基本 上 没有 进入 竞价 广告 网 络 ， 
但 是 现在 却 有 疝 实 时 竞价 转移 的 倾向 。 表 6-1 中 给 出 了 美国 整体 RTB 市 场 的 规模 和 增 
长 数据 总 ， 从 该 数据 可 以 看 出 ，RTB 已 经 成 为 展示 广告 市 场 非常 重要 的 一 部 分 ， 并 且 
仍 在 高 速成 长 中 。 

表 6-1 美国 RTB 市 场 增长 情况 
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展示 广告 名 
实时 竞价 流程 
实时 竞价 的 接口 可 以 分 成 两 个 过 程 ， 即 预先 进行 的 将 ADX 与 DsP 的 用 户 标识 对 
应 起 来 的 cookie 映射 ( cookie mapping) 过 程 和 线 上 广告 请 求 时 的 竞价 和 投放 过 
程 ， 如 图 6-2 所 示 。 下 面 我 们 分 别 介绍 这 两 个 过 程 。 















媒体 网 站 
图 6-2 实时 竞价 (RTB ) 过 程 示 意 


(1) cookie 映 射 。 当 供给 和 需求 双方 都 可 以 得 到 同样 的 用 户 标识 时 ， 实 时 竞 
价 并 不 是 总 需要 此 映射 过 程 。 但 是 ， 当 双方 能 够 得 到 的 用 户 表 示 不 同 ， 特 别 是 在 web 
环境 下 根据 cookie 投 放 广 告 时 ， 需 要 一 个 预先 的 映射 过 程 。 cookie 映 射 一 般 是 
DSP 在 广告 主 网 站 上 发 起 ， 这 样 做 的 原因 是 ， 一 般 情 况 下 ”DSP 负责 的 是 加 工 广告 主 
定制 受众 标签 ， 因 而 不 需要 对 所 有 用 户 都 建立 对 应 关系 。 这 一 过 程 又 可 以 细 分 为 以 
TANER. 

步骤 1.1 : 从 广告 主 网 站 向 DSP 服 务 器 发起 cookie 映 射 请 求 。 

步骤 1.2 : DSP 与 ADX 服 务 器 之 间 通 信 完 成 cookie 映 射 。 由 于 cookie 了 映射 这 项 专 
门 技术 的 应 用 汇 围 不 仅仅 限于 RTB， 我们 将 在 第 14 章 介绍 实时 况 价 技术 时 对 其 进行 更 
具体 的 讨论 。 

( 2 ) 广告 请 求 ( ad call), 。 以 Neb 投 放 环 境 为 例 ，RTB 的 广告 请 求 可 以 分 为 以 
下 三 个 步骤 。 

步骤 2.1: 用 户 浏览 媒体 网 站 。 

步骤 2.2 : 媒体 网 站 通过 Javascript 或 SDK 向 ADX 发 起 广告 请 求 。 

步骤 2.3 : ADX 向 各 DSP 传送 URL 和 本 域名 cookie， 友 起 询 价 请 求 。DSP 
根据 预先 做 好 的 cookie 映 射 查 出 对 应 的 已 方 cookie， 决 策 是 否 参与 竞价 ， 如 果 参 
与 ， 则 返回 自己 的 出 价 。 在 等 待 一 个 固定 的 时 间 片 后 ,ADX 选 出 出 价 最 高 的 DSP 返 回 


给 媒体 网 站 。 

步骤 2.4 : 媒体 网 站 从 胜出 的 DSP 拿 到 广告 创意 并 展示 。 

其 中 步骤 2.2 和 步骤 2.3 可 以 合并 为 一 步 ， 即 DSP 同时 返回 出 价 和 广告 创 
意 地 址 ， 由 ADX 返 回 给 媒体 。 这 样 做 的 好 处 是 减少 了 一 次 服务 器 往返 ， 用户 看 到 的 广 
告 延 迟 也 会 减少 。 缺 点 是 ADX 可 以 获得 DspP 某 个 广告 商 的 相关 受众 ， 因 而 存在 信息 汇 
圳 风险， 不 太 符 合 ADX 中 立 市 场 的 地 位 。 实 际 产 品 中 ， 这 两 种 方式 都 有 采用 。 在 应 用 
内 广告 等 非 Web 的 环境 下 ， 有 时 供给 方 和 需求 方 采 用 同样 的 用 户 标识 ， 这 时 DSP 进 行 
用 户 对 应 的 操作 可 以 略 去 。 

实时 竞价 的 交易 方式 虽然 给 予 了 广告 主 最 大 的 流量 选择 空间 ， 也 对 系统 提出 了 
更 高 的 要 求 ， 并 且 带 来 了 下 面 一 些 实际 问题 。 

(1) 每 次 展示 都 有 ADX 服 务 器 与 多 个 DSP 服 务 器 的 参与 ， 这 使 得 服务 器 与 带宽 
成 本 大 大 增加 。 读 者 可 以 简单 计算 下 ， 假 设 每 个 广告 请 求 包 的 大 小 是 1 KB， 每 秒 产 
生 5666 个 广告 请 求 ， 在 将 每 个 广告 请 求 都 友 给 ”16 个 DSP 的 情形 下 ， 需 要 的 带宽 就 
将 达到 400 Mbit/Zs， 而 这 样 的 数字 对 于 ADX 来 说 只 是 一 个 不 大 的 规模 。 

( 2) 在 询 价 过 程 中 ，ADX 要 等 待 一 个 约定 好 的 时 间 片 ( 一 般 情 况 下 为 100 
ms) ， 这 使 得 用 户 看 到 的 广告 延迟 增加 ， 对 CTR 有 负面 影响 。 

( 3) 原理 上 DSP 可 以 以 极 低 的 出 价 参 与 况 价 ， 这 样 哩 不 能 获得 流量 ， 却 可 以 低 
成 本 得 到 在 媒体 网 站 上 的 用 户 行为 数据 ， 这 里 存在 着 潜在 的 信息 泄露 风险 。 

RTB 的 接口 有 两 个 对 接 方 : 在 ADX 方 实现 的 部 分 称 为 RTBD ( RTB for 
Demand) ; 在 DSP 方 实现 的 部 分 称 为 RTBS ( RTB for Supply ) 。 在 各 个 ADX 
H, RTE ”接口 的 细节 和 具体 参数 有 很 大 的 不 同 ， 显然 这 对 于 广告 主 从 不 同 的 ADX 中 
统一 采 买 流量 是 不 利 的 。 为 了 解决 这 一 问题 ，IAB 经 过 充分 市 场 调研 与 企业 合作 ， 制 
定 了 OpenRTB"“ 的 接口 标准 ， 这 一 标准 涵盖 了 视频 、 无 线 、 文 字 、 横 幅 等 多 种 广告 形 
式 下 的 RTB 问题 ， 并 已 经 为 一 些 ADX 所 采用 。 
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地 ， 也 丈 是 在 每 一 次 展示 时 参与 广告 葛 价 ， 而 供给 方 对 不 同 广告 实时 比价 的 过 程 在 
前 面 讲 到 的 一 般 竞 价 广告 中 也 人 存在。 因此， 不 要 把 搜索 广告 、 广 告 网 络 等 也 理解 成 
实时 竞价 产品 。 


6.2 其 他 程 交易 


在 实时 竞价 产生 以 后 ， 广告 交 易 越 来 越 多 地 依赖 机 器 间 在 线 的 协商 而 非 事 先 约 
定 或 人 工 操作 完成 ， 这 样 的 交易 方式 称 为 程序 化 交易 。 程 序 化 交易 的 核心 目的 是 让 
需求 方 能 够 自由 地 选择 流量 和 出 价 。 除 了 实时 竞价 以 外 ， 市 场 上 还 存在 若干 其 他 的 
程序 化 交易 方式 ， 我 们 来 看 一 下 。 

6.2.1 优选 


优选 比 实 时 竞价 产生 要 早 ， 可 以 看 成 是 只 有 一 个 需求 方 的 程序 化 交易 ， 其 交易 
过 程 如 图 6-3 所 示 。 
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图 6-3 优选 交易 过 程 示 意 
E 
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优选 方式 允许 单个 需求 方 按照 自己 的 意愿 来 挑选 流 


但 是 又 可 以 避免 复杂 的 


竞价 过 程 。 这 个 过 程 主 要 有 以 下 五 个 步骤 。 

(1) 用 尸 浏 览 媒体 网 站 。 

( 2) 媒体 网 站 通过 Javascript 代 码 或 SDK 向 供给 万 广告 投放 机 友 起 广告 请 求 ; 
这 里 的 供给 方 广告 投放 机 有 时 是 媒体 目 己 的 广告 投放 机 ， 有 时 则 是 ADX 的 广告 投放 
机 。 

(3) 供给 方 广告 投放 机 向 需求 方 的 广告 投放 机 友 起 请 求 ， 询 问 是 否 需要 此 次 广 
告 展 示 机 会 。 

(4) 需求 方 广告 投放 机 根据 自己 的 逻辑 判断 ， 如 果 需 要 此 次 展示 机 会 ， 则 返回 
相应 的 广告 创意 。 

(5) 需求 方 如 果 不 需要 此 次 展示 机 会 ， 则 通知 媒体 广告 投放 机 ， 由 供给 方 广告 
投放 机 从 目 有 广告 库 中 选择 合适 的 创意 返回 。 

优选 过 程 同 样 可 以 使 得 需求 方 自由 地 挑选 流量 ， 因 此 也 是 一 种 程序 化 交易 方 
式 。 由 于 只 有 一 个 需求 方 参与 ， 媒 体 可 以 比较 容易 地 对 广告 的 质量 和 来 源 进 行 控 
制 。 这 种 交易 一 般 按照 CPM 方式 结算 ， 由 于 没有 了 多 方 竞价 ， 又 有 选择 流量 的 便 
利 ， 往 往 要 约定 一 个 比 市 场 价格 更 高 的 CPM 单价 。 与 RTB 相 比 ， 优 选 的 一 个 缺点 是 
决策 过 程 可 能 存在 比较 多 的 服务 器 往返 : 在 极端 情况 下 ， 需 要 三 次 服务 器 的 往返 才 
能 得 到 最 后 的 广告 。 这 有 可 能 使 得 用 户 看 到 的 广告 延迟 增 大 ， 从 而 影响 广告 效果 。 


6.2.2 i 


除了 实时 竞价 这 种 公开 的 市 场 担 卖 机 制 以 外 ， 有 时 媒体 为 了 保证 广告 主 的 质 
, 硕 望 将 拍卖 限制 在 一 些 农 邀请 需求 方 的 小 学 围 内 。 这 种 程序 化 交易 叫 作 私有 市 
场 。 私 有 市 场 中 的 在 线 交易 过 程 与 公开 的 实时 竞价 一 致 ， 在 此 不 再 敬 述 。 
私有 市 场 可 以 况 兼 顾 了 优选 与 实时 竞价 的 好 处 : 首先 ， 私 有 市 场 与 优选 一 样 ， 
是 一 种 邀请 制 而 非 公开 的 交易 方式 ， 因 此 广告 主 的 质量 可 以 由 少量 被 邀请 需求 方 很 
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好 地 控制 ， 这 有 利于 确保 媒体 的 价值 不 受伤 害 ; 其 次 ， 在 被 邀请 需求 方 之 间 仍 然 保 
留 了 竞价 了 关系 ， 有 利于 提升 媒体 的 变现 能 力 。 当 然 ， 与 实时 竞价 相 比 ， 这 两 点 主 
要 都 是 对 媒体 有 利 ， 因 此 往往 是 大 型 优质 媒体 在 考虑 程序 化 交易 时 的 选择 。 另 外 ， 
这 也 将 使 得 更 多 的 优质 媒体 加 入 到 程序 化 交易 市 场 ， 反 过 来 可 以 促进 品牌 广告 投放 
的 程序 化 进程 。 

从 2814 年 开始 ,私有 市 场 在 整个 程序 化 交易 市 场 中 得 到了 越 来 越 多 的 重视 ， 以 
DoubleClick Adx 为 代表 的 主流 ADX 都 在 大 力 加 强 私有 市 场 的 产品 和 服务 。 可 以 预 
见 ， 随 着 私有 市 场 与 公开 市 场 的 充分 友 展 与 融合 ， 程序 化 交易 能 在 效果 与 品牌、 媒 
体 利益 与 广告 主 利益 的 平衡 方面 变 得 越 来 越 成 就。 

随 着 优选 、 私 有 市 场 为 代表 的 一 些 交 易 方 式 的 产生 ， 程序 化 交易 的 产品 边界 变 
得 有 些 模 糊 ， 甚 至 令 人 困惑 。IAB 在 其 报告 中 ， 根 据 库存 类 型 、 价 格 模式 这 两 个 关键 
产品 特征 ， 把 市 场 上 与 程序 化 交易 相关 的 交易 方式 分 成 四 类 ， 如 表 6-2 所 示 ， 以 便 大 
家 遇 到 相关 的 市 场 术语 时 能 够 了 解 其 本 质 。 需 要 说 明 的 是 ， 以 我 们 的 观点 来 看 ， 表 
中 programmatic direct 这 类 担保 投 送 优化 (automated guaranteed) 交易 方式 
实际 上 仅 仪 是 完成 了 固定 库存 上 的 受众 定向 和 效果 优化 ， 与 传统 需求 方 的 广告 投放 
服务 很 接近 ， 而 并 没有 机 器 决策 的 流量 选择 过 程 ， 是 否 应 该 归 在 程序 化 交易 之 中 ， 
还 值得 商 椎 。 

表 6-2 IAB 忆 结 的 程序 化 相关 交易 方式 
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6.2.3 广告 交易 E 


我 们 已 经 介绍 了 在 线 广告 市 场 上 主流 的 交易 方式 ， 现 在 对 它们 做 一 个 小 结 ， 如 
图 6-4 所 示 。 
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图 6-4 在 线 广告 主要 交易 方式 一 览 
按时 间 段 和 广告 位 独占 式 的 售卖 以 及 展示 量 合约 的 售卖 是 销售 与 客户 之 间 将 广 
告 投 放 的 关键 要 求 约定 下 来 的 交易 方式 ， 在 其 中 人 的 因素 起 了 相当 大 的 作用 ， 不 过 


这 种 售卖 一 般 来 说 由 于 能 满足 一 些 品牌 性 需求 ， 洪 价 能 力也 比较 好 ， 在 高 质量 的 媒 
体 上 属于 优先 考虑 的 售卖 方式 ， 我 们 把 它们 称 为 优先 销售 (premium sale). ix 
术 层 面 来 说 ， 优 先 销售 整体 对 计算 的 要 求 不 算 特 别 深入 ， 而 且 主 要 的 技术 集中 在 供 
给 方 ( 如 在 绪 分 配 、 受 众 定向 ) 。 

在 竞价 广告 网 络 的 市 场 形 态 下 ， 对 供给 方 而 言 ， 可 以 通过 将 广告 位 直接 托管 给 
ADN 的 方式 变现 ， 也 可 以 同时 使 用 给 多 个 广告 联盟 ， 按 照 一 些 准则 或 计算 结果 灵活 地 
对 不 同 的 流量 分 割 选择 不 同 的 ADN， 这 称 为 网 络 优化 (network optimization) , 
我 们 在 下 文中 的 供给 方 平台 中 还 会 讨论 。 对 需求 万 而 言 ， 则 存在 选择 合适 的 人 群 标 
签 并 合理 出 价 ， 以 优化 整体 ROI 的 程序 交易 要 求 。 这 样 的 交易 万 式 虽 然 已 经 比较 依赖 
计算 ， 但 是 双方 的 决策 并 非 实时 完成 ， 效 率 还 没有 达到 最 高 。 我 们 把 这 种 交易 方式 
称 为 半 程 序 化 交易 。 

在 实时 竞价 的 环境 中 ， 程 序 交 易 的 过 程 变 得 更 加 简单 直接 ， 供 应 方 的 RTBD 接 
口 和 需求 方 的 RTBS 接口 通过 ADX 直接 对 接 ， 并 完成 精细 的 流量 采 买 。 除 了 这 两 
种 市 场 上 常见 的 程序 交易 结构 ， 上 面 介 绍 的 优选 和 私有 市 场 等 方式 也 越 来 越 多 地 在 
市 场 上 呈现 。 我 们 在 图 6-4 中 列 出 了 包括 优先 销售 和 程序 化 交易 等 各 种 在 线 广 告 主要 
的 交易 万 式 ， 供 大 家 参考 。 


6.3 | c AREA MER 


广告 交易 平台 ， 即 ADX， 是 程序 化 交易 时 代 的 关键 产品 ， 它 负责 将 媒体 流量 以 提 
卖 的 方式 售卖 给 DSsP， 可 以 类 比 于 证 券 市 场 中 的 交易 所 。 最 早 的 ADX 产 品 
RightMedia 的 初衷 是 在 纽约 的 一 些 广告 代理 公司 之 间 交 换 剩余 流量 。 因 此 ， 早 期 的 
RightMedia 并 不 采用 RTB， 而 是 采用 类 似 于 私有 市 场 和 托管 区 易 的 方式 。 但 是 ， 
这 种 私有 市 场 并 不 能 满足 大 量 长 尾 媒 体 流量 交换 的 需求 ， 因 为 剩余 流量 只 有 按照 需 
求 方 最 精确 的 定 同 方式 来 交换 ， 才 能 获得 最 高 的 价值 。 所 以 当 公 开 RTB 产 生 以 后 ,二 


速成 为 ADX 的 标 配 甚至 最 主要 的 功能 。 

ADX 的 产品 策略 较为 简单 ， 由 于 所 有 的 广告 竞价 都 是 实时 进行 ， 因 此 不 需要 保存 
广告 库 ， 因 而 也 不 需要 广告 检索 流程 ， 排 序 过 程 也 非常 简单 。 广 告 交 易 平台 中 需要 
注意 的 产品 策略 ， 主 要 是 如 何 解决 给 多 个 ”DSP 发 广告 请 求 带 来 的 带宽 和 机 器 成 本 的 
上 升 。 这 一 问题 ， 我 们 称 为 询 价 优化 (call out optimization). 。 询 价 优化 的 具 
体 技术 方案 ， 我 们 将 在 后 文 的 技术 部 分 再 做 介绍 。 

ADX 一 般 为 CPM 结算 方式 ， 这 一 点 要 特别 说 明 一 下 。 我 们 前 文 提 到 过 ， 展 示 
量 合约 一 般 按照 CPM 结算 ， 但 是 无 法 把 多 个 广告 位 放 进 同一 合约 ; 而 广告 网 络 由 于 
广告 位 复杂 ， 一般 只 能 按照 CPC 结算 。 那 么 为 什么 在 情况 与 广告 网 络 类 似 的 广告 交 
易 市 场 中 可 以 按照 CPM 结算 呢 ? 这 里 的 逻辑 在 于 ， 实 时 竞价 中 广告 决策 是 由 DSP 完 成 
的 ， 而 且 对 每 次 展示 都 可 以 得 到 广告 位 信息 。 因 此 ， 虽 然 各 个 广告 位 的 点 击 率 差 别 
很 大 ，DSsP 还 是 可 以 自行 精细 估计 上 点击 率 ， 并 实时 计算 出 当前 展示 的 合理 eCPM。 并 
且 ， 由 于 第 一 方 数 据 在 程序 化 交易 中 的 广泛 使 用 , DSP ”对 于 人 群 在 特定 广告 上 产生 
的 效果 往往 能 够 估计 得 更 加 精细 。 因 此 ， 按 照 CPM 结算 ， 将 eCPM 整 体 的 估计 都 交 给 
需求 方 是 比较 合适 的 市 场 分 工 。 

产品 案例 

从 早期 以 托管 和 私有 交易 为 主 的 模式 ， 到 后 来 以 公开 交易 为 主 的 模式 ，ADX 的 产 
品 演进 很 快 ， 我 们 将 以 RightMedia 和 DoubleC1lick Adx 为 例 进 行 介绍 。 

1. 


RightMedia 


rightmeaia 
RightMedia 是 美国 最 大 的 网 络 广 告 交 易 平 台 之 一 。2667 年 ， 展 示 广 告 占 美国 整 
个 在 线 广告 市 场 份额 的 四 分 之 三 。Yahoo! ”斥资 6 .8 亿美 元 收购 RightMedia ( 同年 
Google 以 31 亿 美元 收购 DoubleClick ) 。 收 购 以 后 ，Yahoo! 对 RightMedia 做 了 一 


项 重要 的 改变 ， 将 其 变 成 了 私有 的 网 络 广告 交易 所 ， 不 再 为 小 网 站 提供 广告 位 拍卖 
的 服务 。 

优质 媒体 希望 进入 网 络 广告 交易 来 消化 直销 的 品牌 广告 剩 下 的 广告 库存 ， 但 是 
又 不 希望 失去 流量 的 控制 权 。 而 一 般 的 公开 交易 平台 面向 大 大 小 小 的 网 站 提供 区 易 
服务 ， 广 告 质量 参差 不 齐 ， 会 影响 媒体 的 品牌 价值 。 因 此 ，Yahoo! ”非常 重视 让 优 
质 媒体 进入 广告 生态 圈 的 策略 ， 希 望 把 RightMedia 打 造成 针对 高 端 媒体 的 私有 广告 
交易 平台 。 

虽然 能 建立 广告 主 关 系 ， 公 开交 易 的 RTB 市 场 上 的 竞价 对 优质 媒体 有 时 有 失 公 
D: 在 信息 对 称 ， 也 就 是 受众 的 信息 完全 被 DSP 知 晓 的 情况 下 ，DSP 的 出 价 才 会 完 
合理 ; 而 在 信息 不 对 称 ， 例 如 ， 数 据 来 源 不 充分 的 情形 下 ， 一 个 高 端 用 户 访问 了 优 
质 媒体 ，DSP 可 能 并 不 知晓 ,其 出 价 对 于 优质 媒体 来 说 也 会 偏 低 。 如 果 优 质 媒 体 接 入 
了 公开 交易 的 ADX, 不仅 媒体 品牌 将 被 淡化 ，ADX 的 品牌 价值 被 提高 ， 媒 体 也 将 会 
失去 控制 权 。 

综 上 考虑 ， 优 质 媒体 会 首选 提供 PMP 交易 的 平台 ， 这 样 既 能 控制 流量 又 能 选择 
控制 DsP 和 建立 广告 主 天 系 ， 从 而 建立 媒体 品牌 。 事 实 上 ，PMP 也 一 直 是 SsP 优 化 媒 
体 利益 的 显著 特性 。 只 是 近年 来 随 着 ADX 逐 渐 融 合 了 SSspP 的 特性 ， 这 两 类 交易 模式 人 在 
产品 上 也 逐渐 融合 。 

由 于 近年 来 基于 公开 RTB 的 ADX 皮 展 迅猛 ，RightMedia 的 业务 也 面临 着 很 大 的 挑 
战 ， 并 且 其 交易 架构 和 算法 都 存在 着 一 些 不 尽 合理 之 处 。Yahoo! 已 经 决定 在 2015 
年 将 RightMedia 这 一 产品 下 线 ， 代 之 以 全 新 的 广告 交易 产品 。 

2.DoubleClick ADX 
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2007 , Google 以 31 亿 美元 的 价格 收购 了 DoubleClick。 在 此 基础 上 ， 发 








布 了 其 广告 交易 平台 产品 DoubleClick ADX， 并 将 AdWords 和 AdSense 接 入 。 其 
中 ，Adsense 是 作为 一 个 广告 网 络 从 供给 端 接 入 的 ， 而 AdWords 则 作为 需求 方 接 入 。 
Google Adwords 的 广告 主 可 以 直接 进入 ADX 的 平台 并 拥有 更 多 的 媒体 资源 ， 而 
AdSense 的 友 布 丙 们 也 将 拥有 更 广泛 优质 的 广告 主 资 源 。DoubleClick 作 为 一 个 
ADX， 连 接 了 众多 广告 网 络 和 DSP， 当 一 次 广告 展示 发 生 时 ，AdSense 和 AdWords 只 
是 作为 其 中 两 个 参与 者 而 已 ，AdWords 赢 得 的 展示 并 不 一 定 在 AdSsense 上 展示 ， 在 
Adsense 上 展示 的 广告 也 不 一 定 是 来 目 Adwords 的 。 

DoubleClick 提 供 的 是 一 个 完全 透明 ， 理 论 上 任何 DsP 都 可 以 对 任何 流量 竞价 的 
公开 交易 市 场 。 媒 体 一 般 会 允许 一 些 或 所 有 需求 方 通过 这 种 方式 接 入 他 们 的 流量 。 
通常 不 会 与 需求 方 产 生 直接 交流 ， 媒 体 主 可 以 在 完全 未 知 的 情况 下 参与 公开 市 场 流 
DoubleCclick 的 公开 透明 的 RTB 模 式 吸 取 了 RightMeida 由 于 历史 问题 市 来 的 一 
些 设计 不 足 ， 在 其 ADX 的 拓扑 结构 设计 上 有 其 独到 之 处 。RightMedia 在 折 扑 结构 设 
计 上 ， 任 意 两 个 媒体 间 换 量 需要 双方 签订 合同 ， 即 在 会 进行 换 量 的 媒体 间 连 边 ， 伴 
随 着 换 量 媒体 的 增多 ， 节 点 之 间 的 连接 是 任意 的 ， 没 有 规律 ， 带 来 了 设计 上 的 复杂 
ÎE. DoubleClick ”采用 了 星 型 的 拓扑 结构 ， 媒 体 直接 换 量 需 要 先 经 过 Google , H 
接 和 和 ”Google 签订 合同 ， 这 人 么 做 一 方面 降低 了 ADX 模 式 的 复杂 性 ， 一 方面 将 单纯 的 分 
成 收益 拆 分 成 了 两 份 合同 里 的 收入 和 成 本 ， 也 增加 了 Goog1e 的 现金 流 。 

DoubleClick Adx 每 天 管理 着 全 球 数 自 亿 次 广告 展示 的 实时 竞价 ， 在 中 国 市 场 
也 是 重要 的 ADX 之 一 。 


6.4 Sky y Wet 


与 ADX 相 对 应 ， 以 RTB 方 式 购 买 广告 的 产品 形态 就 是 需求 方 平台 , Bl DSP。 这 
一 产品 的 核心 特征 有 两 个 : 一 个 是 RTB 方 式 的 流量 购买 ， 另 一 个 是 需要 支持 需求 方 定 


制 化 的 用 户 划分 。 这 两 个 核心 特征 其 实 是 同一 问题 的 两 个 方面 : 为 了 能 够 按 需 求 方 
定制 化 的 用 户 划 分 采 买 广告 ， 需 要 市 场 开 放 竞 价 接口 ; 而 如 果 仅 仅 根 据 供给 方 定义 
的 用 户 划 分 来 采 买 ， 那 么 像 广告 网 络 那样 的 非 实 时 竞价 整 够 了 。 

什么 是 定制 化 2 的 用 户 划分 呢 ? 从 受众 定向 的 角度 看 ， 那 些 形 如 t (a, u) 的 定 
向 方式 ， 即 与 广告 主 相 天 的 定 同 方式 ， 融 是 定制 化 用 户 划 分 。 可 以 通过 两 个 例子 来 
直观 地 理解 一 下 。 第 一 个 例子 ， 假 设 某 电 商 网 站 准备 进行 一 次 面向 其 者 客户 的 广告 
投放 ， 这 里 的 “ 老 客户 ” 融 是 一 种 定制 化 用 户 划分 ， 显 然 只 有 该 电 商 目 己 才能 找到 
这 个 用 户 群 ， 而 任何 媒体 或 广告 网 络 无 论 数据 能 力 有 多 强 ， 也 无 法 加 工 出 这 样 的 标 
签 。 第 二 个 例子 ， 某 银行 希望 通过 广告 接触 到 上 自己 信用 卡 的 潜在 客户。 要 找到 这 些 
潜在 客户 ， 我 们 需要 以 银行 现 有 的 客户 作为 基础 ， 分 析 其 行为 和 人 口 属性 有 哪些 特 
征 ， 然 后 再 根据 这 些 特征 去 拓展 可 能 的 潜在 客户 。 这 一 过 程 既 需要 需求 方 的 数据 ， 
又 需要 媒体 或 第 三 方 数据 ， 而 其 加 工 出 的 人 群 仍然 是 与 广告 主 相 天 的 ， 因 此 也 属于 
定制 化 用 户 划分 。 

由 于 可 以 细 分 到 每 次 展示 的 粒度 来 决策 和 出 价 ， 这 使 得 需求 万 可 以 向 一 个 推荐 
系统 那样 精细 化 地 执行 广告 活动 ， 也 使 得 推荐 和 广告 这 两 项 重要 的 互联 网 技术 找到 
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6.4.1 GE 一 V7 AEN O 生生 


DSP 的 广告 决策 过 程 ( 如 图 6-5 所 示 ) 与 广告 网 络 非常 相似 ， 同 样 先 要 经 过 检 
率 、 排 序 、 定 价 几 个 阶段 ， 主 要 的 差别 是 完成 广告 选择 后 ， 又 增加 了 出 价 的 步骤 。 
而 出 价 正 是 。“” DSP 的 关键 产品 策略 之 一 ， 因 为 在 实时 竞价 环境 中 ， 出 价 直接 决定 着 
DSP 的 流量 基本 单位 成 本 ， 当 然 也 就 决定 着 利润 。 





图 6-5 需求 方 平台 广告 决策 过 程 示 意 
DSP 与 广告 网 络 男 一 个 不 同 的 产品 集 略 问题 体现 在 受众 定向 的 方式 上 。 在 广告 网 
络 中 ， 主 流 的 定向 方式 都 是 根据 第 二 方 数 据 加 工 的 标签 ; 但 是 在 DSP 中 ， 以 第 一 方 数 
据 为 核心 ， 结 合 第 二 方 或 第 三 方 数据 的 定制 化 标签 ， 即 t (a, u) 的 定 同方 式 ， 是 其 
天 注 的 重点 。 在 各 种 定制 化 标 釜 中 ， 重 定向 和 look-alike ( 新 客 推 荐 ) WAAR 
有 一 定 的 普 适 性 ， 是 DSP 需 要 特别 重视 的 产品 策略 。 
下 面 我 们 来 讨论 下 DSP 中 这 两 个 天 键 的 产品 策略 。 


6.4.2 出 价 策略 


在 广告 网 络 中 ， 我 们 估计 ecPM 的 目的 是 为 了 对 广告 排序 ， 而 绝对 的 ecPM 值 并 不 
需要 太 精 确 。 但 是 任 DsP 中 ， 由 于 每 次 展示 都 要 按 CPM 向 ADX 报 价 ， 因 此 准确 地 估计 
eCPM 非 常 关键 ， 这 也 成 为 DsP 出 价 策略 的 基础 。 

DSP 直 觉 的 出 价 策略 比较 简单 : 只 要 ecPM 估计 足够 精准 ， 并 按照 此 值 出 价 即 
AJ, FA ADX 一 般 也 是 按照 GSP 来 计 费 ， 这 样 的 策略 是 可 以 确保 有 利润 空间 的 。 如 
果 没 有 预算 的 限制 ， 那 么 这 样 的 出 价 策略 就 是 最 优 策 略 了 。 

为 什么 预算 的 限制 使 得 情况 有 变化 了 呢 ? 图 6-6 ”中 的 曲线 是 某 实 时 竞价 市 场 的 
成 交 价 在 一 天 内 随时 间 变 化 的 曲线 (bid landscape) 中 。 可 以 友 现 ， 由 于 市 场 中 
各 DSP 的 广告 主 、 预 算 及 出 价 的 变化 ， 这 一 曲线 不 但 不 平滑 ， 甚 至 是 变化 非常 剧烈 。 
在 这 样 的 市 场 中 ， 假 设 我 们 的 ecPM 是 某 高 于 市 场 水 平 的 固定 值 ， 可 以 比较 两 种 出 价 
策略 。 图 6-6 中 的 策略 A， 由 于 eCPM 高 于 市 场 水 平 ， 可 以 对 所 有 询 价 按 eCcPM 出 价 ， 这 


样 可 以 获得 所 有 流量 ， HSHM. Ede-orPBUASEEB , Peli NA — E 
较 低 的 流量 出 价 ， 获 得 这 些 流量 ， 直至 当日 预算 消耗 完 。 很 显然 ， 采 用 策略 8 我 们 付 
出 的 成 本 要 显著 低 于 策略 A， 当 然 也 就 能 获得 更 高 的 利润 。 
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图 6-6 DSP 不 同 出 价 策略 

在 上 面 的 例子 中 ，DsP 优 化 的 出 价 策略 可 以 定性 地 描述 为 : 首先 ， 通 过 历史 的 观 
察 和 预测 得 到 市 价 的 曲线 ; 然后 ， 将 一 天 的 预算 分 配 到 那些 市 价 较 低 的 流量 上 。 当 
然 ， 实 际 情况 要 更 加 复杂 ， 因 为 ecPM 也 会 随 着 时 间 而 变化 ， 例 如 游戏 广告 在 休闲 时 
间 的 eCPM 显 著 高 于 上 班 时 间 。 于 是 我 们 希望 获得 的 并 不 是 市 价 较 低 的 流量 ， 而 是 
eCPM 与 市 价 的 比例 较 大 的 流量 。 因 此 ，pDsP 的 出 价 策略 要 基于 两 条 曲线 ， 即 eCPM 和 
市 价 随 时 间 变 化 的 曲线 。 

当然 ， 除 了 在 时 间 轴 上 找 合 适 的 出 价 区 间 ， 也 可 以 将 此 策略 拓展 到 更 多 的 维度 
上 。 例 如 ， 一 般 来 说 女性 用 户 流量 的 商业 价值 较 高 ， 市 场 价 也 可 能 会 比较 高 ， 如果 
DSP 广 告 在 男女 用 户 的 eCPM 上 差别 不 大 ， 甚 至 在 男性 用 户 上 更 高 ( 如 游戏 ) ， 那 么 
就 应 该 尽量 多 投放 男性 流量 ， 以 获得 更 高 的 利润 。 不 过 ， 加 入 更 多 维度 使 得 问题 变 
得 复杂 了 很 多 ， 而 且 其 他 因素 对 市 场 价 的 影响 没有 时 间 那 么 大 ， 因 此 ， 做 好 时 间 轴 


上 的 出 价 策略 是 实践 中 最 关键 的 。 
6.4.3 重 定 白 


重 定向 是 在 线 广告 中 最 早产 生 ， 也 最 广泛 使 用 的 一 种 定制 化 标签 。 它 的 概念 很 
简单 ， 即 把 那些 曾经 对 广告 主 服务 发 生 明 确 兴 趣 的 用 户 找 出 来 ， 向 他 们 投放 该 广告 
主 的 广告 。 在 不 同 的 广告 类 型 上 ， 重 定向 主要 有 两 种 目的 。 

(1) 用 于 品牌 广告 。 当 用 户 已 经 选择 过 某 品牌 的 服务 或 产品 后 ， 如 果 在 比较 高 
质量 的 媒体 上 看 到 该 品牌 的 广告 ， 他 会 进一步 肯定 自己 决策 的 正确 性 ， 从 而 对 该 品 
牌 的 认 知 度 也 大 大 加 强 。 这 种 用 途 下 ， 应 当 以 宣传 品牌 而 不 是 具体 产品 为 主要 诉 

(2) 用 于 效果 广告 。 当 用 户 曾经 考虑 过 某 种 产品 ， 但 没有 完成 最 终 转化 ， 通 过 
在 线 广告 将 这 个 用 户 找 回 ， 点 击 率 和 转化 率 都 会 明显 高 于 平均 水 平 。 如 果 用 户 已 经 
选择 了 该 产品 ， 那 么 可 以 利用 推荐 技术 为 他 推送 相关 的 产品 广告 。 

重 定 向 可 以 从 信息 来 源 和 使 用 信息 的 精细 程度 上 区 分 为 网 站 重 定向 、 个 性 化 重 
定向 和 搜索 重 定向 ， 我 们 将 分 别 说 明 。 

1. 网 站 重 定向 与 个 性 化 重 定向 

网 站 重 定向 (site retargeting ) ， 即 将 在 一 段 时 间 内 到 达 过 广告 主 网 站 的 用 
户 作为 重 定向 集合 。 这 样 的 重 定向 流量 其 eCPM 一 般 来 说 要 比 无 定向 流量 高 出 一 个 
数量 级 ， 因 此 需要 尽 可 能 扩大 投放 量 。 在 媒体 上 采 买 这 种 重 定向 流量 时 ， 能 够 得 到 
的 量 有 两 个 主要 影响 因素 ， 一 是 广告 主 网 站 本 身 的 独立 访客 量 水 平 ， 二 是 这 些 访客 
与 媒体 的 重合 程度 。 前 一 个 因素 没有 办 法 通过 广告 手段 扩大 ， 而 后 一 个 因素 则 要 求 

可 能 多 地 通过 各 种 渠道 采 买 重 定向 流量 ， 显 然 DSP 是 合适 的 方式 。 

个 性 化 重 定向 (personalized retargeting ) 是 网 站 重 定向 的 一 种 特例 。 对 
重 定向 流量 进行 深入 加 工 ， 按 照 品 类 和 购买 阶段 等 因素 进行 创意 上 的 深度 个 性 化 ， 


融 是 个 性 化 重 定向 。 具 体 来 说 ， 个 性 化 重 定向 可 以 在 两 个 方面 深入 挖掘 : 一 是 对 于 
处 于 不 同 购买 阶段 的 用 户 ， 采 用 合适 的 创意 推动 他 尽快 完成 转化 行为 ， 这 里 的 购买 
阶段 包括 浏览 、 搜 索 、 加 入 购物 车 等 ; 二 是 对 于 已 经 有 过 一 些 购 买 记录 的 用 户 ， 使 
用 推荐 技术 向 其 展示 相关 的 商品 以 提升 二 次 购买 率 。 从 这 两 层 意义 上 看 ， 这 一 方法 
与 推荐 有 非常 多 的 共通 之 处 : 以 广告 产品 的 视角 看 ， 我 们 称 之 为 个 性 化 重 定向 ; 而 
从 推荐 产品 的 视角 看 ， 则 可 以 认为 是 一 种 站 外 推荐 (off-site 
recommendation) ， 换 句 话说 ， 是 将 原来 广告 主 网 站 上 的 推荐 模块 搬 到 了 站 外 。 
在 图 6-7 中， 我 们 给 出 了 个 性 化 重 定向 广告 的 一 个 示例 。 访 广告 投放 的 对 象 是 
某 个 京 乐 商城 的 用 户 。 该 用 户 很 可 能 在 京 忒 商城 关注 过 时 种 手机 商品 以 及 有 关 PHP 编 
程 的 技术 书籍 。 因 此 ， 广 告 系 统 根据 他 的 个 性 化 购物 兴趣 ， 结 合 京东 商城 的 商品 库 
人 存 ， 为 其 推荐 了 相关 的 手机 和 技术 书籍 。 可 以 想见 ， 这 样 的 广告 其 点 击 率 和 转化 率 
都 会 比较 高 。 
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图 6-7 个 性 化 重 定向 广告 示例 
个 性 化 重 定向 与 传统 的 受众 定向 方式 有 较 大 的 差别 ， 其 产品 有 以 下 三 个 关键 


YO 


(1) 动态 创意 。 个 性 化 重 定向 的 核心 是 用 推荐 的 思路 实时 决定 展示 什么 商品 。 
由 于 广告 主 的 商品 数量 往往 相当 大 ， 因 此 显然 不 可 能 为 所 有 的 商品 组 合 预先 准备 好 
创意 。 因 此 ， 动 态 创 意 是 个 性 化 重 定向 最 重要 的 支持 技术 ， 这 也 是 在 线 广告 朝 着 彻 
底 个 性 化 、 动 态 化 方 同 友 展 迈 出 的 重要 一 步 。 

( 2 ) 推荐 引 掌 。 个 性 化 重 定向 可 以 看 作 是 站 外 推荐 。 不 过 与 站 内 推荐 相 比 ，, € 
有 一 些 不 同 之 处 。 首 先 ， 站 内 商品 页 上 的 推荐 主要 根据 上 下 文 信息 来 进行 ， 而 站 外 


推荐 则 是 根据 用 户 信息 来 进行 ; 另外 ， 站 内 推荐 由 于 是 发 生 在 某 个 特定 的 购买 环节 
上 的 ， 因 而 往往 不 需要 根据 用 户 的 购买 阶段 来 调整 创意 ， 而 站 外 推荐 这 么 做 则 非常 
( 3 ) 广告 主 商 品 库存 实时 接口 。 对 于 站 外 的 商品 推荐 ， 如 果 用 户 在 点 击 某 单 品 
到 达 广 告 主 网 站 时 ， 发 现 该 商品 已 经 售 完 或 下 架 或 者 是 价格 与 创意 上 的 宣传 不 符 ， 
会 对 该 广告 主 的 品牌 形象 有 较 严 重 的 伤害 。 为 了 尽 可 能 避免 这 种 情况 的 发 生 ， 个 性 
化 重 定向 服务 需要 提供 准 实时 的 商品 库 接口 ， 让 广告 主 可 以 及 时 地 将 库存 和 价格 信 
息 同步 过 来 。 
2 .搜索 重 定 向 
搜索 重 定向 (search retargeting) ， 即 将 搜索 过 与 广告 主 直 接 相 天 的 天 键 
词 的 用 户 群 作为 重 定向 集合 。 这 样 的 方式 也 可 以 获得 很 精准 的 用 户 群 ， 其 绝对 量 也 
要 高 于 网 站 重 定向 ， 不 过 对 于 非 主要 搜索 引擎 提供 商 来 说 ， 依 靠 搜索 重 定向 能 覆盖 
的 人 群 比例 未 必 会 高 于 网 站 重 定向 。 
既然 搜索 重 定 向 使 用 的 是 搜索 引擎 的 第 二 方 数据 ， 那 么 为 什么 也 归 为 定制 化 标 
签 呢 ? 这 要 从 如 何 获 得 搜索 重 定向 中 用 的 词 表 说 起 。 给 一 次 广告 活动 确定 合适 的 搜 
索 重 定向 词 表 ， 一 般 来 说 有 以 下 三 种 思路 。 
(1) 人 工 根据 经 验 确 定 词 表 。 
(2) 如 果 该 广告 主 同 时 也 在 做 SEM， 可 以 直接 采用 对 应 投放 的 关键 词 表 。 
(3) 基于 广告 主流 量 统计 的 方法 ， 即 统计 广告 主 网 站 流量 中 从 搜索 引擎 来 的 流 
, 将 其 中 频 度 较 高 的 关键 词 作为 搜索 重 定向 词 表 。 

其 中 ， 最 后 一 种 策略 在 实践 中 表现 出 来 两 方面 的 优势 : 首先 ， 由 于 是 根据 实际 
充 量 数据 统计 得 到 ， 效 果 往 往 比 其 他 方法 更 好 ; 其 次 ， 通 过 在 广告 主 网 站 布置 代码 
等 手段 得 到 第 一 方 数据 后 ， 整 个 过 程 可 以 自动 化 ， 简 便 易 行 。 因 此 ， 我 们 建议 的 首 
选 搜索 重 定向 策略 ， 是 第 三 种 策略 ， 而 这 种 策略 需要 依赖 于 第 一 方 数据 ， 因 此 也 是 
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一 种 定制 化 标签 。 
6.4.4 新 客 推荐 


重 定向 的 方式 虽然 精准 ， 但 是 量 受到 极 大 的 限制 。 而 且 对 于 大 部 分 广告 主 来 
说 ， 除 了 对 老 用 户 精耕细作 ， 他 们 更 希望 能 有 办 法 接触 到 那些 “有 可 能 ”对 自己 产 
品 发 生 兴 趣 的 潜在 用 户 。 对 于 那些 快速 成 长 期 的 电 商 或 者 是 网 站 流量 并 不 大 的 线 下 
业务 广告 商 ( 如 银行 、 汽 车 ) ， 这 方面 的 需求 尤其 强烈 。 

“有 可 能 对 自己 产品 友 生 兴趣 ”这 样 的 用 户 标 等 ， 从 目的 上 来 说 很 明确 ， 但 从 
做 ;法 上 来 说 比较 模糊 。 很 容易 想到 的 思路 是 这 样 : 由 广告 主根 据 自己 的 第 一 方 数 据 
提供 一 部 分 种 子 用 尸 ， 再 由 拥有 更 丰富 数据 的 第 二 方 数据 的 广告 平台 分 析 这 些 用 户 
网 络 行为 的 特征 ， 并 根据 这 些 特征 找到 具有 相似 特征 的 拓展 人 群 。 很 显然 ， 这 也 是 
一 种 定制 化 用 尸 标 签 。 这 样 的 标签 加 工 策 略称 为 新 客 推荐 ,， 即 look-alike。 

从 推荐 的 角度 来 看 look-alike， 可 以 认为 这 是 一 种 “新 客 推荐 ”的 方式 ， 重 点 
在 于 向 没有 关注 广告 主 产 品 的 潜在 用 尸 进 行 推广 。 当 然 ， 上 既然 是 推荐 ， 束 不 是 漫 无 
目的 的 撒 网 式 推广 。 另 外 ， 这 样 的 推荐 技术 ， 考 虑 的 是 没有 广告 主 站 内 行为 情况 下 
的 推荐 ， 是 原 有 狭义 推荐 问题 的 扩展 。 

look-alike 是 一 种 合理 的 受众 定向 产品 思路 ， 但 是 要 在 一 定 的 数据 支持 下 才 有 
可 能 产生 价值 ， 并 且 由 于 它 涉及 第 一 万 数据 和 第 三 方 数据 的 获取 与 加 工 ， 人 在 扩 术 上 
是 有 一 定 的 挑战 的 。 读 者 在 遇 到 这 类 产品 时 ， 和 要 特别 注意 从 数据 和 技术 方案 合理 性 
的 角度 判断 其 真正 价值 。 不 客气 地 说， 人 在 中 国 市 场 ，look-alike 这 个 词 已 经 一 定 程 
度 上 变 成 了 效果 不 明 、 原 理解 释 不 清 的 定向 方式 的 遮羞 布 ， 而 几乎 所 有 的 广告 产品 
都 声称 自己 有 此 项 能 力 ， 这 实在 可 以 称 为 中 国 的 “look-alike 乱 象 ”。 


6.4.5 AmA 


定制 化 用 尸 划 分 和 RTB 技 术 的 产生 众生 了 许多 以 技术 方式 优化 广告 及 买 的 DSP 公 


司 。 这 些 公司 当中 ， 有 些 以 CPM KEHE ROI 的 套利 模式 为 主 ; 有 的 则 以 透明 
的 采 买 和 效果 优化 功能 性 服务 为 主 ， 我 们 将 对 这 两 种 类 型 的 DSP 分 别 举例 说 明 。 
1.Criteo 


Criteo 是 一 家 总 部 位 于 法 国 的 广告 技术 公司 。 从 其 历史 业务 来 看 ，Criteo 除 了 
实时 竞价 ， 还 采用 优选 方式 采 买 流量 。 不 同 于 其 他 的 需求 方 平台 ，Criteo 的 重点 产 
品 是 按照 个 性 化 重 定向 方式 米 买 广告 。 其 核心 技术 也 就是 前 面 介绍 的 三 项 : 动态 创 
意 、 推 荐 引擎 和 广告 主 商 品 库存 实时 接口 。 图 6-8 中 给 出 了 Criteo 个 性 化 重 定向 创 
意 的 几 个 例子 。 


Zobacz wszystke | € | ) 


a ^ 


Koszulka termoaktywna Skarpety narciarskie 
Polar damski Lady Polaris damska Extreme W02 dziecięce Thermolite 
Hi-Tec Spaio Junior Spaio 





| 97.00 zl 144.90 zi 31.90 zl 


图 6-8 Criteo 个 性 化 重 定向 广告 示例 
Criteo 按 照 RTB 或 优选 的 方式 ， 以 CPM 方 式 与 媒体 结算 ， 但 是 与 广告 主 之 间 的 


结算 完全 采用 ”CPC 方式 ， 从 而 实现 套利 ， 并 且 也 比较 容易 被 效果 类 广告 主 接受 。 在 
个 性 化 重 定向 的 方案 框架 内 ，Criteo 还 提供 了 user、category、data 和 banner 四 
个 维度 上 比较 灵活 的 优化 功能 ， 即 广告 主 可 以 根据 不 同 的 用 户 细 分 、 商 品种 类 、 具 
体 数 据 和 创意 类 型 设置 不 同 的 点 击 出 价 ， 从 而 达到 非常 精细 的 ROI 管 理 和 优化 的 目 
的 。 这 样 的 显示 广告 运营 和 投 送 方式 ， 其 精细 程度 与 搜索 广告 有 相似 之 处 : 都 是 在 
非常 精准 的 流量 细 分 上 以 效果 为 导向 投放 广告 ， 并 且 能 够 在 非常 精细 的 粒度 上 控制 
出 价 。 不 过 这 种 方式 对 于 展示 广告 来 说 有 一 些 先天 的 缺点 : 个 性 化 重 定向 不 同 于 搜 
索 广 告 ， 需 要 预先 在 广告 主 网 站 布置 跟踪 代码 ， 这 使 得 新 广告 主 加 入 的 进程 变 得 大 
为 复杂 。 因 此 ， 专门 从 事 个 性 化 重 定向 的 公司 在 初期 会 面临 需求 不 足 的 问题 ， 并 且 
需要 运营 商 大 量 的 努力 和 效果 上 良好 的 记录 才能 逐步 改善 ， 而 ”Criteo 也 同样 经 历 
了 这 一 过 程 。 伴 随 着 Criteo 海 外 业务 的 拓展 ， 最 近 几 年 ，Criteo 收 入 增长 恨 好 ， 
2612 年 收入 3 .4 亿美 元 ，2613 年 车 收 5. 6 亿美 元 ， 增 速达 到 了 66%。 


2.InviteMedia 


invite media 

InviteMedia 原 是 一 家 独立 的 DSP 公 司 ，2616 年 6 月 以 约 7 ”6866 万 美元 的 价格 被 
Google 收 购 ， 现 已 整合 进 DboubleClick 的 广告 系列 产品 ， 并 改名 为 DoubleClick 
Bid Manager。 昌 然 Google 在 广告 产品 中 全 线 布 局 ， 但 InviteMedia 被 整合 后 仍然 
保持 相对 独立 ， 和 代表 媒体 利益 的 poubleCLick Adx 之 间 仍 然 是 相互 博弈 的 关系 。 

InviteMedia 是 广告 交易 市 场 上 的 先行 者 之 一 ， 其 业务 是 提供 比较 透明 的 RTB 
采 买 功能 ， 如 设 定 一 些 规则 和 优化 目标 ， 帮 广告 主 把 相关 ADX 接 入 进来 并 从 中 收取 固 
定 比例 的 佣金 ， 和 希望 借 此 方式 快速 招展 广告 主 端的 影响 力 。 当 然 ， 随 着 业务 发 展 ， 
现在 也 正在 提供 越 来 越 深 入 的 采 买 —— ROI ” 优化 服务 。 同 时 伴随 着 ”26813 年 
InviteMedia 将 域名 切换 到 Doubleclick 的 域名 dc.com ，InviteMedia 不 再 需要 
和 DoubleClick ”Adx 进 行 cookie 上 映射， 减少 了 因 cookie 映 射 带 来 的 损失 ， 从 而 提 


升 了 采 买 的 效率 和 最 终 投放 的 效果 。 

3 . 聚 效 

聚 效 广告 平台 
B MediaV DSP 

聚 效 是 从 MediaV 独 立 出 来 的 广告 技术 平台 产品 ， 是 国内 规模 最 大 的 效果 类 DSP 
之 一 。 严 格 来 说 ， 聚 效 是 一 个 ADN 和 DSP 混 合 的 产品 ,也 有 人 把 这 类 产品 称 为 
DSPAN。 其 流量 中 既 有 通过 RTB 方 式 获得 的 部 分 ， 也 有 自 营 的 广告 网 络 ， 聚 效 将 这 两 
部 分 流量 按照 统一 的 人 群 划分 ， 并 按 cPC 竞 价 的 方式 售卖 给 广告 主 。 不 过 目前 ， 聚 效 
也 在 进行 内 部 流量 RTB 化 的 改造 ， 预 计 将 来 会 演变 成 由 一 个 ADX 承接 其 广告 网 络 流 
& , 而 需求 方 则 完全 以 DS 为 接口 的 模式 。 

作为 国内 最 早 的 自助 式 ”DSP 之 一 ， 聚 效 在 电 商 等 效果 类 行业 有 众多 的 用 户 ， 这 
些 用 户 既 包括 淘宝 网 店 ， 也 包括 知名 的 电 商 平台 。 这 些 广 告 主 都 按照 “PC 进行 出 价 
和 结算 ， 聚 效 的 psP 引 警 会 预 估 每 一 次 流量 的 点 击 率 或 转化 率 ， 实 时 将 该 出 价 转换 成 
CPM 报价 。 

聚 效 对 接 国内 的 主流 公开 ADX, 包括 Google ADX、TANX、 腾 果 等 ， 同 时 ， 聚 
效 也 对 接 了 新 浪 、 搜 狐 、 优 酷 、 土 豆 、 网 易 、58 同 城 等 大 型 网 站 的 私有 流量 。 因 
此 ， 就 产品 形态 上 而 言 ， 聚 效 是 一 个 兼 具 公开 交易 和 私有 交易 功能 的 ”DSP， 也 能 够 
为 不 同 诉 求 的 广告 主 提供 相应 的 流量 和 服务 。 同 时 ， 除 了 服务 大 型 电 商 以 外 ， 聚 交 
还 服务 了 数 万 家 的 中 小 广告 主 ， 并 通过 算法 和 数据 能 力 为 其 精准 地 找到 用 户 ， 这 成 
为 其 核心 竞争 力 。 


6.5 2^ JL 
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体 而 言 ， 无 需 把 全 部 流量 的 变现 都 放 在 一 种 交易 方式 上 。 媒 体 既 可 以 通过 直接 销售 


AES Mes scone ms, Ba era eA Sieh 2t BLE E ESRJeCPM, 

参照 6.2 节 中 的 广告 交易 方式 谱系 ， 媒 体 的 统一 变现 平台 需要 这 样 的 逻辑 。 当 广 
告 请 求 到 达 时 ， 首 先 检 查 优先 销售 的 订单 有 无 需求 ， 这 包括 CPT 和 CPM 的 合约 。 如 果 
有 需求 ， 按 照 优先 级 和 在 线 分 配 的 方案 完成 投放 ; 如 果 没 有 这 类 销售 合约 ， 则 进入 
竞价 流程 。 竞 价 时 ， 从 自 运营 广告 主 库 中 找 出 eCPM 较 高 的 ， 并 估算 可 供 调 用 的 若干 
广告 网 络 的 ecCPM， 在 这 两 者 之 间 找 到 较 高 的 广告 候选 ， 再 以 此 作为 MRP， 通 过 RTB 接 
口 向 接 入 的 各 DSP 实 时 询 价 。 可 以 看 出 ， 在 这 样 的 逻辑 中 ， 广 告 请 求 是 被 分 配 到 上 自 运 
营 广 告 库 ， 还 是 其 他 广告 网 络 ， 或 者 是 DSP， 是 根据 他 们 的 收益 在 线 动 态 决定 的 ， 这 
样 的 方案 称 为 动态 分 配 (dynamic allocation) 。 对 应 的 产品 形态 残 叫 作 供给 
平台 (Supply Side Platform, SSP), 


6.5.1 供给 方 平 台 产 品 策 


SSP 中 多 种 广告 源 动态 分 配 的 决策 过 程 如 图 6-9 所 示 。 





图 6-9 动态 分 配 决策 过 程 示 意 
这 一 过 程 有 如 下 五 个 步骤 。 
(1) 从 自 有 广告 库 中 根据 当前 受众 标签 检索 合适 的 广告 候选 ， 并 估计 每 个 广告 
候选 的 eCPM。 
( 2) 排序 得 到 eCPM 最 高 的 广告 候选 以 及 相应 的 eCPM 值 r,。 


(3) 同样 根据 环境 信息 和 受众 标签 估算 出 各 个 合作 的 广告 网 络 大 致 的 eCPM。 

( 4 ) 排序 得 到 ecpw 最 高 的 广告 网 络 以 及 相应 的 seCpM 值 MAX ° 

(5) 以 Dax(7TMAX, TMAX ) 为 底价 ,通过 RTB 接 口 向 各 个 合作 的 Dsp 查 询 更 
高 变现 价值 的 广告 。 

先进 行 本 地 广告 检索 和 ecPM 估计 再 进行 RTB 的 好 处 是 可 以 根据 当前 展示 的 
情况 动态 调整 RTB 的 底价 ， 而 当 底 价 高 到 一 定 程度 时 ， 即 可 以 略 去 RTB 的 过 程 ， 
从 而 减轻 服务 器 的 负担 。 这 样 一 来 ， 此 过 程 既 可 以 利用 ”RTB 带 来 的 大 量 广告 主 和 市 
场 流动 性 ， 又 充分 利用 了 本 地 广告 库 抬 高 竞价 水 平 。 当 然 ， 这 里 介绍 的 动态 分 配 过 
程 是 非常 概要 和 粗略 的 。 在 实际 的 媒体 变现 中 ， 除 了 按照 ecPM 况 价 的 需求 ， 还 需 
处 理 合约 广告 的 保 量 需求 ， 因 此 在 按 ecpM 排 序 之 前 ， 还 需要 有 一 个 对 合约 广告 的 在 
线 分 配 过 程 ， 并 对 那些 合约 广告 不 需要 的 量 再 进行 竞价 。 

ssp 涉 及 的 计算 问题 是 其 中 的 网 络 优化 问题 ， 即 对 某 次 展示 机 会 的 ( u, c) 对 
N 个 候选 的 广告 网 络 估计 其 ecPM 以 优化 收益 。 由 于 此 时 没有 具体 广告 的 信息 ， 
此 只 能 做 粗略 的 估计 。 在 实践 策略 中 考虑 的 因素 主要 有 两 个 : 一 个 是 广告 网 络 或 DsP 
的 分 成 模式 和 比例 ; 另 一 个 是 它们 各 自 的 广告 返回 率 。 同 时 ， 如 果 这 些 合作 方 本 身 
集中 投放 某 种 行业 类 型 的 广告 ， 那 么 人 群 和 环境 标签 也 是 有 帮助 的 。 


[rm 


6.5.2 F a= 


在 广告 网 络 时 代 ，SSP ”产品 由 于 可 以 一 站 式 地 接 入 多 个 广告 网 络 ， 对 媒体 来 说 
价值 较 大 。 当 今 ， 随 着 程序 化 交易 的 友 展 ， 其 市 场 空间 有 所 减 小 ， 产品 功能 上 也 与 
ADX 有 更 多 的 交 堵 ， 我 们 下 面 以 具体 的 产品 来 说 明 。 


Admeld 


Adme1d 的 创始 人 Michael Barrett 曾 经 在 美国 在 线 ( AOL ) 和 福克斯 集团 


( Fox ) 担任 要 职 ， 所 以 Adme1d 的 产品 从 一 开始 就 在 为 门户 网 站 设计 广告 管理 功 

能 ， 优 化 媒体 利益 。 他 们 早期 的 客户 包括 了 AOL、F0OX 等 在 美国 具有 相当 流量 的 大 型 
门户 型 网 站 。 从 28688 年 起 ， 一 直 在 网 络 优化 、PMP 等 方向 上 引领 ssP 相 关 近 术 和 产品 
ESRR. 

早年 Adme1d 在 为 媒体 做 收益 管理 时 ， 接 入 的 主要 流量 并 不 只 是 来 自 于 ADX 里 的 
RTB 流 量 ， 主 要 是 来 自 于 各 大 ADN， 比 如 在 北美 市 场 就 接 入 了 56 多 家 ADN， 换 句 话 
说 媒体 只 要 加 一 段 Admeld 的 代码 ， 就 可 以 对 接 所 有 的 这 些 ”“ADN ,这 极 大 地 方便 了 
剩余 流量 的 变现 和 优化 。 在 对 这 568 多 家 广告 网 络 做 网 络 优化 时 ， 如 前 所 述 ， 由 于 对 
广告 网 络 自己 的 定向 方式 和 广告 库 不 是 特别 清楚 时 ， 上 反而 是 使 用 广告 位 和 时 间 段 这 
样 的 基本 划分 比较 稳健 ， 所 以 主要 在 广告 位 维度 、 时 间 维 度 、 广 告 返 回 率 以 及 分 成 
比例 等 少数 维度 上 进行 ecPM 估计 和 流量 切 分 。 

Adme1d 也 会 从 DMP 购 买 用 户 数据 ， 这 一 方面 为 了 自己 能 更 进一步 深入 地 估计 各 
广告 网 络 的 ecPM， 另 一 方面 也 方便 参与 竞价 的 各 DSP 了 解 流量 质量 ， 从 而 刺激 DspP 的 
竞价 价格 和 市 场 的 流动 性 。 

2611 年 被 Google 以 4 亿美 元 收购 后 , Admeld 整合 了 DoubleClick 的 
DoubleClick for Publishers (DFP ) 广告 管理 系统 中 。Google 收购 后 能 获取 到 
一 些 他 们 难以 取得 的 顶级 内 容 供应 商 的 流量 以 及 良好 的 媒体 关系 ， 而 Adme1d 的 SSsP 
相关 技术 也 被 整合 进 DFP 中 ， 完 善 了 Goog1e 的 广告 生态 链 。 


2.Rubicon 


b oe 
Rubicon 是 第 一 家 上 市 的 专注 于 供给 方 的 SsP 公 司 ， 默 多 克 的 新 闻 集 团 拥 有 其 
26% 的 股份 ， 新 闻 集 团 旗 下 的 数字 媒体 均 通 过 其 变现 ， 所 以 Rubicon 拥 有 强大 的 媒体 
资源 支撑 其 业务 。 在 上 市 的 招股 书 中 ，Rubicon 是 这 样 描 述 其 客户 群 的 : 拥有 超过 


和 566 家 数字 媒体 的 展 好 关系 ， 包 括 comscore 排 名 前 168 位 的 媒体 中 的 46%。 

伴随 着 产业 链 上 下 游 的 整合 ，Rubicon 也 逐渐 淡 去 了 ssp 的 标签 ， 其 重点 宣 
传 的 产品 包括 SSP 产品 Seller Cloud, ADX 产品 Advertising Automation 
Cloud, DSP 产品 Buyer Cloud , 这些 产品 覆盖 了 产业 链 的 上 下 游 。 在 ”ADX 的 环 
节 ，Rubicon 每 天 友 出 近 46 亿 次 的 询 价 请 求 ， 宣 称 与 6oogle 是 目前 最 大 的 两 家 
ADX, 


6.6 类 zxE 


通过 前 面 的 讨论 我 们 知道 ， 要 提高 定向 的 精准 程度 与 人 群 履 盖 率 ， 技 术 远 不 是 
唯一 重要 的 因素 。 那 么 什么 才 是 决定 性 的 呢 ? 是 数据 的 来 源 与 质量 。 这 是 正确 认识 
精准 广告 业务 非 钊 重要 的 观点 。 为 了 强调 这 一 观点 ， 我 们 以 大 家 更 容易 理解 的 石油 
加 工 工业 为 例 与 之 做 类 比 ， 如 图 6-16 所 示 。 在 石油 工业 中 ， 从 油田 挖掘 出 的 原油 是 
整个 行业 的 原材料 ， 炼 油 厂 的 作用 是 把 这 一 原材料 加 工 成 汽油 等 燃料 ， 表 输送 给 加 
油 站 这 样 的 销售 终端 。 在 精准 广告 中 ， 可 以 把 用 户 的 行为 类 比 于 石油 工业 中 的 原 材 
料 ， 日 志 收 集 和 清洗 系统 的 作用 就 相当 于 油田 的 挖 扬 设备。 而 受众 定向 的 平台 就 可 
以 类 比 于 炼油 三， 它 把 原油 ， 即 清洗 过 的 日 志 ， 加 工 成 用 尸 标 签 ， 而 这 些 用 尸 标 签 
束 像 汽油 一 样 ， 是 可 以 被 销售 和 使 用 。 而 传统 广告 中 起 天 键 作 用 的 广告 位 在 这 里 仪 
仅 变 成 了 加 油 站 ， 负 责 完成 产品 消费 的 过 程 而 已 。 


加 油 站 
m 





数据 源 原始 数据 用 户 标签 广告 位 
原材料 商品 


图 6-16 数据 驱动 的 计算 广告 与 石油 加 工 对 比 
如 何 正确 认识 技术 在 精准 广告 业务 中 的 作用 呢 ? 从 上 面 的 类 比 可 以 看 出 ， 技 术 
的 地 位 相当 于 挖掘 设备 和 炼油 设备 ， 当 然 有 着 无 可 置疑 的 重要 性 。 技 术 能 力 的 高 低 
直接 影响 着 数据 采集 和 变现 的 有 效 性 。 不 过 从 另 一 个 角度 说 ， 技 术 的 作用 也 不 能 被 
过 分 夸大 。 巧 妇 难 为 无 米 之 炊 ， 没 有 高 质量 的 原材料 ， 即 用 户 数据 ， 再 高 明 的 技术 
也 没有 用 武 乙 地 。 
6.6.1 有 价值 的 数据 来 源 


既然 数据 本 身 有 这 样 根本 性 的 作用 ， 甚 至 从 某 种 意义 上 说 是 精准 广告 市 场 的 核 
心 ， 那 么 围绕 数据 本 身 的 加 工 与 交易 束 与 广告 的 投放 技术 一 样 令 人 瞩目 。 有 哪些 数 
据 是 对 精准 广告 业务 有 直接 贡献 的 呢 ? 我 们 可 以 重点 关注 下 面 的 几 类 ，。 

(1) 用 尸 标 识 。 对 广告 而 言 ， 如何 确 定 哪 些 行 为 来 自 于 同一 个 用 户 是 非常 关键 
的 问题 。 用 户 标识 对 于 行为 定向 的 重要 性 往往 容易 被 忽视 。 实 际 上 ， 稳 定 精 确 的 用 
户 身份 就 像 是 一 串 6 前 面 的 那个 1 一 样 ， 对 准确 界定 受众 和 利用 数据 至 关 重 要 。 无 论 


能 拿 到 多 少 行为 数据 ， 如 果 无 法 把 它们 与 投放 系统 联系 起 来 ， 这 些 数据 都 无 法 发 挥 
作用 。 

对 于 浏 贤 器 行为 ， 我 们 最 营 使 用 的 用 户 标 识 是 cookie， 但 是 由 于 仔 侍 同时 使 用 
多 个 浏览 器 、cookie 过 期 或 用 户主 动 清除 cookie 的 情况 ， 这 种 用 户 标 识 的 长 期 一 致 
性 并 不 算 太 好 。 不 过 好 在 对 广告 来 说 ， 起 关键 作用 的 还 是 用 户 近 期 内 的 行为 ， 所 以 
FA cookie 作为 用 户 标 识 还 是 有 效 且 为 业界 广泛 采用 的 基础 方案 。 如 果 运 营 广 告 业 
务 的 域名 同时 提供 其 他 有 永久 身份 的 服务 ， 如 电子 邮件 、SNS 等 ， 那 么 可 以 用 这 些 永 
久 身 份 找 回 过 期 或 被 清除 的 cookie， 这 样 用 户 身份 的 一 致 性 融会 改善 。 当 然 ， 如 果 
广告 业务 域名 和 用 永久 身份 服务 的 域名 不 同 ， 也 不 是 完全 没有 办 法 ， 在 后 者 同意 的 
前 提 下 ， 可 以 采用 cookie 映射 的 方法 来 对 应 彼此 的 用 户 身份 ， 这 一 扩 术 的 细节 将 
在 后 文 谈 到 广告 交易 的 技术 时 再 讨论 。 

在 移动 互联 的 情形 下 ，i0s 与 Android 在 应 用 内 广告 使 用 的 用 户 ID 有 所 不 同 : 前 
者 是 苹果 公司 设计 的 广告 专用 用 户 标识 符 (Identifier for ^ Advertising, 
IDFA ) ， 其 性 质 与 cookie 类 似 ; 而 后 者 没有 专门 的 广告 用 户 ID， 一 般 采 用 
Android ID 或 IMEI ( international mobile equipment identity ) 号 等 标识 
Bi. 

由 于 高 质量 的 用 户 标 识 本 身 就 是 一 种 非常 有 价值 的 数据 ， 因 此 也 是 可 以 在 市 场 
交换 和 售卖 的 。 

(2) 用 户 行 为 。 业 界 通 常 认 为， 转化 ( conversion). 、 预 转化 ( pre- 
conversion ) 、 搜 索 广告 点 击 ( sponsored search click ) 、 展 示 广 告 点 击 ( ad 
click), {Rat (search click), 、 搜 索 ( search ) 、 分 享 ( share ) 、 页 面 
Wl (page view), ENW (ad view) 等 在 线 行为 是 可 以 被 广泛 采集 并 且 对 于 
受众 定向 或 广告 决策 有 了 明确 作用 。 按 照 对 效果 广告 的 有 效 性 分 类 ， 这 些 行为 可 以 分 
为 决策 行为 、 主 动 行为 、 半 主动 行为 和 被 动 行为 。 


决策 行为 主要 包括 转化 和 预 转化 。 这 些 都 是 在 广告 主 的 网 站 中 友 生 的 行为 ， 往 
往 对 应 着 非 尝 明 确 的 用 户 兴 趣 。 例 如 在 电 商 网 站 上 ， 转 化 残 对 应 者 最 后 的 下 单 ， 而 
预 转化 对 应 下 单 前 的 搜索 、 浏 览 、 比 价 、 加 入 购物 车 等 多 种 准备 工作 。 这 类 行为 的 
价值 是 最 高 的 ， 但 是 也 是 供给 方 或 广告 平台 最 难得 到 的 。 根 据 广告 主 端的 数据 进行 
重 定向 或 者 个 性 化 重 定向 是 对 此 类 行为 最 直接 的 利用 。 人 在 行为 定向 中 ， 这 类 数据 虽 
然 量 不 大 ， 但 却 不 能 忽视 。 

主动 行为 主要 包括 广告 点 击 、 搜 索 和 搜索 点 击 。 这 一 组 行为 都 是 用 户 在 网 络 上 
在 明确 意图 支配 下 主动 产生 的 行为 ， 因 而 也 有 比较 丰富 的 信息 量 。 其 中 的 广告 点击 
行为 一 般 来 说 量 不 大 ， 并 不 能 作为 定向 的 主要 数据 来 源 。 而 搜索 行为 是 能 够 大 量 获 
得 的 最 主要 的 主动 行为 ， 需 要 特别 注意 挖掘 利用 。 

半 主 动 行为 主要 包括 分 享 和 网 页 浏览 。 这 两 类 行为 都 是 用 户 在 目的 比较 弱 的 网 
上 冲 滔 过 程 中 产生 的 ， 因 此 ， 其 所 涉及 的 兴趣 领域 对 把 握 用 户 信 息 有 价值 ， 但 是 非 
单 细节 的 内 容 其 精准 程度 有 限 。 半 主动 行为 的 指导 意义 虽然 有 限 ， 但 是 其 数据 量 却 
是 各 种 行为 中 最 大 的 。 

被 动 行为 主要 是 指 广 告 浏览 。 广 告 浏览 严格 来 说 不 能 算 作 定向 的 行为 依据 ,但 
是 由 于 其 频次 与 相应 类 别 的 广告 点 击 负 相关 ， 因 而 在 行为 定向 的 建 模 中 也 可 以 使 
FB. 

(3) 人 口 属性 。 人 口 属性 本 身 是 常用 的 一 种 定向 标签 ， 因 此 其 数据 来 源 很 重 
要 。 一 般 来 说， 只 有 一 些 能 够 与 用 户 实名 身份 绑 定 的 服务 可 以 得 到 此 信息 。 我 们 也 
可 以 利用 网 络 行为 数据 进行 人 口 属性 标签 的 预测 ， 但 是 这 样 做 的 准确 程度 一 般 都 很 
有 限 ， 而 且 仍 然 需要 一 些 标定 的 数据 用 于 训练 。 对 于 某 些 人 口 属性 ， 可 能 一 些 特 别 
的 信息 比较 容易 给 出 准确 的 判定 ， 例 如 用 语音 服务 记录 的 声音 信号 ， 可 以 将 男女 区 
分 得 相当 准确 。 

(4) 地 理 位 置 。 地 理 位 置信 息 随 着 能 获得 的 精度 不 同 其 用 途 也 会 有 相当 大 的 差 


异 。 如 果 只 能 根据 IP 进 行 映射 ， 我 们 往往 只 能 拿 到 精确 到 城市 级 别 的 地 理 位 置 ， 当 
然 这 对 于 很 多 广告 投放 来 说 已 经 有 相当 的 价值 。 而 在 移动 互联 环境 下 ，GPS BRE 
可 以 提供 的 定位 往往 可 以 准确 到 几 百 米 的 学 围 ， 这 融 使 得 hyper-local 的 区 域 广 
告 商 投放 定向 广告 成 为 可 能 。 这 样 的 广告 定向 ， 对 于 和 餐饮 等 受 地 理 位 置 限制 极 大 的 
线 下 业务 广告 商 是 非常 有 价值 的 。 

(5) 社交 关系 。 社 交 网 络 上 的 关系 反映 了 人 与 人 之 间 的 联系 ， 也 隐 合 了 一 种 联 
系 人 之 间 “ 兴 趣 相 似 ” 的 合理 推测 。 因 此 ， 社 交 关 系 可 以 用 于 用 户 兴趣 的 平滑 。 当 
广告 系统 观察 到 某 个 人 的 行为 不 足 ， 无 法 进行 精准 的 行为 定向 时 ， 可 以 考虑 借鉴 其 
社交 网 络 朋 友 的 行为 和 兴趣 。 比 如 一 个 人 在 微 博 上 的 好 友 有 很 多 都 是 足球 爱好 者 ， 
那么 可 以 猜测 他 也 是 一 名 足球 爱好 者 。 虽 然 这 样 的 猜测 未 必 准 确 ， 但 只 要 统计 上 合 
理 ， 束 会 对 广告 投放 效果 有 帮助 。 需 要 注意 ， 这样 的 平滑 只 适用 于 那些 长 期 稳定 的 
兴趣 ， 对 于 短 时 的 购买 兴趣 不 太 适 用 。 从 这 个 意义 上 来 看 ， 强 天 系 类 型 的 SNs 比 弱 天 
系 的 SNS 有 优势 ， 关 注 人 群 比 被 关注 人 群 的 信息 意义 更 大 。 

天 于 以 上 各 类 行为 数据 对 广告 效果 的 意义 ， 有 两 条 基本 的 规律 : 首先 ， 随 着 用 
户主 动 意图 的 提升 ， 相 应 的 行为 数据 信息 价值 也 随 之 增 大 ; 其 次 ， 越 接近 转化 的 行 
为 ， 对 效果 广告 的 精准 指导 作用 越 强 。 把 握 这 两 条 规律 有 助 于 大 家 判断 各 种 各 样 的 
行为 数据 的 价值 。 不 过 读者 不 要 筷 记 ， 广告 的 根本 目的 是 “ 低 成 本 地 接触 潜在 用 
户 ”。 如 果 仅 仅 从 转化 效果 上 判断 行为 数据 的 作用 ， 会 友 现 靠近 转化 的 行为 更 精 
准 ， 实 际 上 是 因为 这 部 分 人 群 已 经 更 加 接近 于 决策 的 最 终 阶 段 ， 也 丈 是 说 越 友 不 
是 “ 洪 在 用 户 ”。 因 此 ， 在 行为 定向 这 个 问题 上 ， 不 能 单纯 退 求 ROI 或 者 转化 效果 ， 
而 是 要 根据 广告 主 的 具体 的 人 群 接触 目标 来 平衡 效果 和 履 兰 率 。 


6.6.2 三 方 数 握 划分 


广告 中 用 到 的 用 户 数据 ， 根 据 其 来 源 的 不 同 可 以 分 为 第 一 方 数据 、 第 二 方 数据 


和 第 三 方 数据 ， 如 图 6-11 所 示 。 一 般 我 们 说 的 第 一 方 和 第 二 方 分 别 是 指 广告 主 和 广 
告 平台 ,而 不 直接 参与 广告 交易 的 其 他 数据 提供 方 统称 为 第 三 万。 在 广告 网 络 中 ， 
主要 使 用 第 二 方 数据 指导 广告 投放 ; 而 在 实时 竞价 环境 下 ， 不仅 第 一 方 数据 可 以 被 
利用 ， 大 量 第 三 方 数据 的 加 工 和 交易 也 逐渐 友 展 起 来 。 虽 然 ， 一 般 情况 下 第 一 万 数 
据 的 量 较 小 ， 却 是 所 有 数据 的 灵魂 。 以 第 一 万 数据 为 基础 ， 用 好 第 二 方 数据 和 第 三 
方 数据 ， 是 实时 竞价 时 代 重 要 的 方法 论 。 


其 他 来 源 数据 
(第 三 方 数据 ) 





图 6-11 三 方 数据 示意 
6.6.3 数据 管理 平台 


第 一 方 数据 的 收集 和 加 工 是 广告 市 场 上 非常 重要 的 环节 。 不 过 对 于 没有 这 方面 
技术 积 囚 的 广告 主 而 言 ， 专 门 设 团队 进行 数据 加 工 是 没有 必要 的 。 因 此 ， 市 场 上 也 
产生 了 专 从 事 此 业务 的 产品 ， 称 为 数据 管理 平台 即 DMP。DMP 有 下 面 几 个 核心 的 产品 


(1) 它 可 以 为 网 站 ( 可 以 是 媒体 也 可 以 是 广告 主 网 站 ) 提供 受众 定向 功能 ， 并 
将 得 到 的 用 户 标 签 应 用 于 网 站 业务 。 在 这 一 过 程 中 ， 除 了 加 工 一 些 通用 标签 ，DMP 还 
需要 能 够 比较 灵活 地 按照 网 站 定义 的 用 户 标 签 来 加 工 受 众人 群 。 

(2) 如 果 媒 体 网 站 授权 ，DMP 可 以 提供 接口 对 加 工 出 来 的 用 户 标 签 进行 变现 ， 
并 与 网 站 进行 分 成 。 


(3 ) 广告 主 网 站 可 以 通过 DMP 与 广告 米 买 渠道 进行 更 方便 的 数据 对 接 。 这 一 
所 可 以 通过 下 面 的 应 用 来 理解 。 假 如 某 广 告 主 需 要 通过 外 部 广告 平台 做 重 定向 ， 那 
么 需要 将 目 己 的 用 户 集合 通过 有 某 种 技术 方式 通知 广告 平台 。 如 果 每 个 广告 平台 都 采 
用 在 广告 主 网 站 上 加 跟踪 代码 的 方式 来 收集 用 户 ， 有 两 个 弊端 ， 一 是 多 个 广告 平台 
同时 加 代码 ， 有 可 能 使 页 面 变 得 太 重 ; 二 是 访客 的 积累 可 能 长 达 数 周 的 时 间 ， 这 使 
得 广告 平台 重 定向 的 效率 降低 。 如 果 由 DMP 唯 一 负责 广告 主 网 站 的 用 户 积累 和 划分 ， 
并 通过 数据 接口 的 方式 传送 给 广告 平台 ， 那 么 可 以 很 大 程度 上 解决 上 述 问题 。 

在 北美 的 在 线 广告 市 场 上 ， 有 不 少 以 DMP 类 似 业务 为 主要 方向 的 公司 。 比 较 有 代 


表 性 的 是 AudienceScience。 
6.6.4 数据 交易 平台 


数据 交易 平台 (data exchange) 的 主要 产品 功能 是 聚合 各 种 来 源 的 在 线 的 用 
户 行为 数据 ， 加 工 成 有 价值 的 用 户 标签 ， 然 后 在 广告 市 场 上 通过 售卖 这 些 标签 来 变 
现 。 数 据 交易 平台 与 数据 管理 平台 的 产品 边界 并 不 是 泾 渭 分 明 。 一 般 来 说， 数据 交 
易 平 台 除 了 聚合 成 型 的 用 户 标签 ， 也 都 会 提供 聚合 原始 行为 数据 自行 加 工 标签 的 功 
能 ， 也 就 是 兼 具 ”DMP 的 产品 功能 。 不 过 ， 数据 交易 平台 往往 是 按照 自己 的 逻辑 而 非 
媒体 的 需求 来 制定 标签 体系 和 加 工 数据 ， 因 此 ， 可 以 认为 DMP 是 站 在 第 一 方 数据 的 角 
度 提供 产品 ， 而 数据 交易 平台 主要 是 站 在 第 三 方 数据 的 角度 提供 产品 。 

关于 数据 交易 的 方式 如 图 6-11 所 示 ， 一 般 是 通过 ADX 或 SSP 作 为 中 转 来 完成 。 数 
据 交易 平台 提供 的 各 种 用 户 标 签 作 为 ADX 的 一 个 辅助 产品 提供 给 各 DsP。 标 签 一 般 按 
照 CPMi 计 价 ，DSP 如 果 选 择 购买 某 种 标签 ， 则 在 广告 询 价 的 过 程 中 ，ADX 将 本 次 请 求 
的 用 户 标 签 传 给 DSP， 最 终 按照 DSP 实际 成 交 的 展示 量 乘 以 _CPM 价格 作为 其 购买 
数据 的 附加 费用 。 以 广告 交易 为 载体 进行 数据 交易 是 比较 合理 的 产品 方案 ， 这 种 方 
案 有 一 些 具体 的 好 处 : 首先 ， 在 广告 请 求 上 附加 用 户 标 签 ， 不 会 带 来 额外 的 服务 开 


销 ; 其 次 ， 所 有 的 DSP、 数 据 提供 方 都 只 需要 与 ADX 进 行 cookie 映 射 ， 这 样 以 ADX 


为 中 心 的 星 型 拓扑 结构 比 起 DSP 与 数据 提供 方 直接 进行 cookie 映 射 的 拓扑 结构 显然 
要 方便 得 多 。 
6.6.5 F mÆ 


数据 管理 和 交易 产品 在 程序 化 交易 市 场 已 经 比较 普及 ， 但 是 在 中 国 市 场 中 还 没 
有 形成 规模 。 究 其 原因 ， 疏 怕 与 中 国 存在 着 大 量 作 次 和 流量 动 持 ( 参见 15.3 节 ) 
等 灰色 低 成 本 渠道 不 无 关系 。 因 此 ， 我 们 将 主要 关注 国际 市 场 中 比较 成 熟 的 数据 类 
on, HLA BlueKai 和 AudienceScience 为 代表 。 


Obluekai 


我 们 先 介绍 一 BlueKai ”这 家 公司 的 发 展 历程 : 2667 年 年 未 ， 展 示 广 告 占 
266 亿 美元 在 线 广告 市 场 的 75%。 同 年 ， 在 雅虎 6. 8 亿美 元 投资 了 RightMedia， 
Googlel 以 31 亿 美元 收购 了 Doubleclick 的 背景 下 ，BlueKai 的 CEO Omar Tawakol 
预见 到 未 来 展示 广告 的 客户 需要 将 广告 精准 投放 到 特定 的 消费 群体 ， 于 2668 年 建立 
了 一 个 名 为 Data ” Exchange 的 数据 库 ， 一 方面 让 中 小 网 站 提供 流量 、 会 员 资 料 等 信 
息 ， 另 一 方面 将 这 些 信 息 加 工 后 销售 给 中 小 广告 主 。2889 年 BlueKai 启 动 了 分 析 服 
务 ， 帮 助 用户 区 分 受众 购买 行为 。28611 年 ，BlueKai 收 购 Tracksimple， 加 强 了 自 
己 的 数据 分 析 能 力 ， 从 而 为 广告 主 提供 一 站 式 的 包括 数据 分 析 、 数 据 购买 的 SaaSs 服 
务 。 近 年 来 ， 作 为 Data _ Exchange 和 DMP 的 领头 手 ，BlueKai 开 创 和 推动 了 一 个 独立 
DMP 时 代 ， 活 跃 用 户 数 超过 3 亿 ， 前 28 位 的 广告 网 络 、 门 户 网 站 中 有 8e% 人 在 使 用 
BlueKai 的 数据 。 

BlueKai 作为 一 个 独立 DMP, 不 像 其 他 DMP 公司 开始 整合 DSP 业务 ， 而 是 


一 直 不 提供 媒体 的 竞价 采购 服务 。Bluekai 认为 ， 这 样 可 以 保持 DMP 的 中 立 性 ， 





可 以 使 BlueKai 的 DMP 与 多 家 DSP ”对接 合作。2614 年 2 月 ,Bluekai 被 
Oracle LA 4 亿美 元 收购 。 作 为 BlueKai 的 收购 方 ，Oracle 没有 媒体 购买 的 业 
务 ， 主 要 是 一 些 企业 级 的 市 场 营 销 管 理 服务 ， 因 此 与 Bluekai 的 独立 DMP 的 市 场 
定位 相符 合 。 作 为 独立 的 DMP，BlueKai 收入 规模 并 不 大 ，26813 年 总 收入 仅 6466 
万 美元 左右 。 

BlueKai 的 主要 业务 模式 是 聚合 大 量 中 小 媒体 的 有 价值 行为 数据 ， 使 用 受众 定 
向 技术 为 用 户 打上 标签 ， 并 对 外 售卖 标签 以 获取 收入 。BlueKai 通 过 数据 交易 获得 
的 收入 ， 其 中 很 大 比例 还 将 返还 给 数据 提供 方 。BlueKai 的 重点 放 在 汽车 网 站 、 旅 
游 网 站 和 各 种 购物 网 站 上 ， 因 为 这 些 网 站 背后 代表 着 某 一 个 同 质 性 较 高 的 族群 ， 与 
这 些 主题 网 站 相关 的 广告 主 ， 如 航空 公司 、 汽 车 厂商 等 ， 也 非常 需要 精准 营销 。 比 
如 有 一 家 售卖 服装 的 小 网 店 ， 它 有 自己 用 户 的 搜索 行为 和 购买 行为 ， 但 它 的 数据 量 
不 大 ， 不 值得 用 这 些 数据 去 分 析 变 现 ，B1lueKai 就 会 与 这 些 中 小 网 站 合作 ， 通 过 汇 
聚众 多 中 小 网 站 的 用 户 资料 和 行为 数据 ， 加 工 成 受众 定向 标签 ， 通 过 Data 
Exchange 对 外 售卖 。 比 如 某 些 DsP 想 知道 用 户 身 上 有 什么 标签 ， 而 它 叉 没有 用 户 信 
息 ， 融 可 以 向 BlueKai 购 买 或 分 成 ，BlueKai 再 向 网 站 分 成 。 

BlueKai 同 时 提供 面向 媒体 、 数 据 提供 两 和 广告 主 的 一 系列 产品 ， 包括 DMP、 数 
据 交 换 平台 ( BlueKai Data Exchange ) 以 及 数据 分 析 系 统 。 这 几 项 产品 都 围绕 一 
个 商业 目标 展开 ， 那 就 是 帮助 有 数据 变现 需求 的 参与 者 能 够 自由 、 灵 活 地 通过 技术 
对 接 的 方式 与 广告 主 进行 交易 。 对 于 媒体 或 者 其 他 拥有 数据 者 ， 可 以 通过 BlueKai 
Data ”Exchange 将 自己 的 数据 公开 式 地 出 售 给 市 场 上 的 需求 万 ， 同 时 可 以 比较 自主 
地 控制 定价 ; 对 于 广告 主 ， 可 以 通过 ”BlueKai 提 供 的 DMP 产 品 和 第 三 方 数据 标签 ， 
与 自己 的 第 一 方 数据 结合 起 来 ， 对 自己 的 人 群 进行 更 灵活 的 划分 ， 并 按 此 购买 广 
告 。BlueKai 在 其 中 所 扮演 的 核心 价值 在 于 ， 尽 管 单 看 每 一 个 媒体 的 信息 都 不 具有 
太 大 的 价值 ， 但 当 达 到 一 定 规模 之 后 ，BlueKai 按 照 自己 的 受众 定向 技术 对 这 些 数 
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通过 这 种 数据 交换 方式 ， 广 告 市 场 上 最 有 价值 的 数据 资源 被 盘活 利用 了 。 数 据 
拥有 者 不 需要 直接 涉足 复杂 的 广告 业务 ， 也 可 以 对 数据 进行 变现 ; 而 数据 需求 者 也 
可 以 方便 地 找到 数据 购买 来 源 ， 以 快速 提高 自己 广告 投放 的 效果 。B1lueKai 也 注意 
到 了 隐私 的 问题 ， 它 提供 了 一 个 接口 ， 用 户 可 以 看 到 自己 的 资料 被 谁 使 用 ， 也 可 以 
选择 “ 捐 给 慈善 机 构 ”。 而 实际 上 这 不 过 是 一 种 规避 风险 的 方式 ， 基 本 上 不 会 影响 
到 BlueKai 和 中 小 网 站 原本 的 收入 。 有 天 隐私 方面 的 问题 ， 读 者 可 以 进一步 参考 
15.415, 

Bluekai 提供 大 量 细 分 的 类 别 ， 它 有 着 开放 体系 上 的 标签， 如 “对 宝洁 洗 友 水 
感 兴趣 的 人 ”“ 想 去 日 本 旅游 的 人 ”“， 这些 非常 精细 类 目 对 于 要 做 效果 广告 的 广告 
主 来 说 非常 有 意义 ， 所 以 它 的 售 价 也 很 高 。 根 据 广告 主 使 用 目的 和 数据 来 源 的 不 
同 ， 这 些 标签 又 分 成 如 下 的 几 种 : Intent, B2B, Past Purchases, Geo/Demo, 
i 
比较 典型 的 半 开 放 的 标签 体系 ， 其 中 的 Intent 部 分 非常 类 似 于 前 文中 的 兴趣 定向 体 
系 ， 这 部 分 是 由 BlueKai 根 据 通 过 Data Exchange 收集 的 用 户 行为 加 工 的 。 而 其 他 
的 部 分 ， 有 的 是 由 其 他 数据 提供 商 直 接 提供 ， 比 如 由 Bizo 提 供 的 B2B 标 等 ; 也 有 的 
是 根据 多 家 的 数据 融合 决策 而 成 ， 比 如 Demo/Geo 标 签 实际 上 融合 了 Bizo、 
DataLogix、Expedia 等 多 家 数据 提供 商 的 数据 源 。 

之 所 以 说 BlueKai 的 标签 体系 是 开放 式 的 ， 是 因为 它 会 根据 数据 的 来 源 和 市 
场 需求 不 断 拓展 和 调整 标签 的 类 别 和 内 容 ， 力 求 能 够 满足 尽 可 能 多 的 广告 主 的 特质 
化 需求 。 表 6-3 中 列 出 了 BlueKkai 主 要 的 几 种 标签 、 履 善 用 户 量 和 主要 数据 来 源 。 

表 6-3 BlueKai 标签 体系 主要 类 别 


Interest/LifeStyle, Branded, Estimated  Financial/Economic, jxié— 


Intent | 最 近 输 入 词 表现 出 某 种 产品 或 服务 需求 的 用 户 1604MM 

B2B 职业 上 接近 某 种 需求 的 用 户 90MM 
Past Purchase | 根据 以 入 消费 习 避 判断 可 能 购买 革 产 品 的 用 记 654MM 
— VB ERA TURAE Hia 


[nterest/LifeStyle | TREE ARANT m URP E UN A Forbes, i360, IXI, .. | 103+MM 








Qualified Demo 多 数据 源 上 达成 共识 验证 一 致 的 人 口 属性 多 数据 源 90--MM 
Estimated Financial 根据 对 用 户 财务 状况 的 估计 作出 的 分 类 





2.AudienceScience 


m AudienceScience 
AudienceScience 是 广告 市 场 上 首先 明确 提出 受众 定向 这 一 概念 的 公司 ， 并 且 
长 期 专注 于 这 方面 的 数据 加 工 和 算法 建设 。 它 的 核心 业务 包括 以 下 两 方面 。 

(1) 主要 提供 面向 publish 的 数据 加 工 服务 。 比 如 《纽约 时 报 》 (New York 
Times ) 自己 有 很 多 用 户 ， 也 有 很 多 在 线 数据 ， 但 很 显然 它 的 核心 业务 不 是 做 广告 ， 
也 不 是 做 数据 加 工 ， 它 更 愿意 把 数据 交 给 ”AudienceScience，, AudienceScience 
帮 它 加 工 一 些 有 意义 的 用 户 标 签 ， 比 如 财经 类 用 户 、 体 育 类 用 户 。New York Times 
的 BI 系统 可 以 用 这 些 标签 分 析 哪 些 用 户 对 哪些 内 容 感 兴趣 ， 应 该 如 何 优化 内 容 。 

(2) Audiencescience 还 直接 运营 一 个 效果 广告 网 络 ， 帮助 广 告 主 进 行 投放 管 
理 和 优化 ， 这 里 就 用 到 了 它 分 析 得 到 的 用 户 标签 。 

就 其 数据 聚合 和 收入 分 成 的 模式 来 涡 ，AudienceScience 与 BlueKai 有 很 多 相 
似 之 处 。 两 者 主要 的 区 别 是 ，Audiencescience 并 不 通过 售卖 标签 来 获得 收入 ， 而 
是 仪 供 委托 他 们 优化 效果 的 广告 商 使 用 ， 即 通过 运营 一 个 自 有 的 广告 网 络 来 变现 ， 


使 用 标签 创造 的 营 收 按照 一 定 比 例 跟 提 供 数据 的 媒体 分 成 。 这 样 做 的 原因 是 
Audiencescience 认 为 数据 加 工业 务 在 扣除 媒体 分 成 以 后 利润 空间 太 小 ， 而 自 曹 广 
告 网 络 有 可 能 获得 更 大 的 套利 空间 。 

AudienceScience 其 具体 的 商业 流程 是 : 网 站 ( 可 以 是 广告 主 或 媒体 网 站 ) 先 
把 自己 的 流量 托管 给 AudienceScience， 并 付 给 AudienceScience 一 定 的 技术 服务 
费 ，Audiencescience 把 数据 加 工 成 标签 ， 首 先 提供 给 网 站 用 以 优化 它 的 流量 和 用 
尸体 验 。 同 时 ， 它 在 自己 的 广告 网 络 中 对 这 些 数据 进行 变现 ， 变 现 的 数据 过 来 又 可 
以 与 媒体 分 成 。 

随 着 近年 来 RTB 模式 的 发 展 , AudienceScience 也 逐渐 从 自 营 广告 网 络 向 整 
合 的 ” DMP/DSP 的 方向 发 展 ， 因 为 不 同 于 ”BlueKai 是 作为 第 三 方 的 数据 提供 者 ， 
Audiencescience 加 工 用 户 标 签 的 目的 主要 就 是 为 了 更 好 地 服务 自己 的 广告 主 ， 其 
为 了 优化 广告 主 需求 方 的 利益 ， 融 合 了 DMP 的 数据 来 指导 DspP 的 投放 效果 也 是 自然 的 


选择 。 


6.7 > ABs OFS 


本 章 系 统 性 地 讨论 了 在 线 广告 的 各 种 交易 方式 。 在 实际 的 广告 市 场 中 ， 这 些 交 
易 万 式 又 是 怎样 通过 具体 的 产品 联系 起 来 的 呢 ? 图 6-12 示 总 性 地 表示 了 在 线 广告 市 
场 各 种 产品 的 交互 天 系 。 从 媒体 角度 来 看 ， 有 以 下 三 种 产品 可 以 帮助 其 变现 流量 。 

(1) 可 以 将 广告 位 托管 给 广告 网 络 ， 由 广告 网 络 决策 广告 投放 ， 从 赚 取 分 成 ， 
如 图 6-12 中 的 “媒体 ,”。 

(2) 可 以 将 广告 位 对 接 到 广告 交易 平台 ,以 实时 竞价 的 方式 变现 ， 如 图 6-12 
中 的 “媒体 ”。 

(3) 也 可 以 将 广告 位 托管 给 SSP， 这 样 可 以 同时 对 接 多 个 广告 网 络 和 PMP 接 
口 ， 并 按照 动态 分 配 的 逻辑 选择 变现 最 高 的 需求 方 ( 这 一 产品 的 具体 情况 我 们 在 后 


文 介绍 ) ， 如 图 6-12 中 的 “媒体 ,”。 
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图 6-12 在 线 广告 市 场 产品 交互 关系 示意 

对 于 广告 网 络 来 说 ， 有 以 下 两 种 需求 方 对 接 方式 。 

(1) 可 以 直接 与 需求 方 产品 TD 对 接 ， 通 过 后 者 将 广告 流量 售卖 给 广告 主 ， 也 可 
以 让 广告 主 自行 投放 。 

( 2) 将 其 剩余 流量 再 导入 广告 交易 市 场 ， 以 实时 竞价 的 方式 变现 ， 此 种 方式 中 
的 广告 网 络 充当 了 广告 交易 市 场 的 供给 方 。 

ssP 是 彻底 代表 媒体 利益 的 产品 ， 因此， 它 将 广告 网 络 、 广 告 交 易 市 场 和 ” DSP 
等 都 视 为 提供 预算 的 需求 方 ， 并 通过 统一 的 网 络 优化 功能 来 管理 收入 和 确保 媒体 的 
用 户 体验 。 

告 交易 平台 是 相对 比较 中 立 的 ， 在 供给 方 和 需求 方 之 间 提 供 公 开 、 公 平 的 流 

量 交 换 能 力 的 平台 产品 。 广 告 交 易 平台 的 流量 可 以 来 自 于 媒体 、 广 告 网 络 或 SSP， 而 
需求 方 主要 对 接 DSP 进 行 变现 ， 某 些 情况 下 也 可 以 让 某 些 广告 网 络 以 优先 或 者 打 底 的 


方式 接 入 。 


产品 是 由 供给 方 的 产品 接口 确定 的 。 一 般 来 况 ， 实 时 竞价 比较 适合 于 采 买 定制 化 的 
人 和 群 ， 并 进行 深入 的 流量 优化 ; 非 实时 竞价 则 适合 于 简单 、 低 成 本 的 一 些 通用 人 群 
的 采 买 。 


6.8 延 介 思考 


1. 在 搜索 广告 中 引入 程序 化 交易 方式 ， 是 否 是 一 个 有 前 景 的 产品 方向 ? 

2 . 重 定向 的 广告 效果 往往 显著 高 于 其 他 定向 方式 ， 不 过 这 部 分 是 由 于 其 人 群 选 
择 的 特殊 性 ， 应 如 何 公允 地 评价 一 次 重 定向 广告 投放 的 实际 增 量 效果 ? 

3 .数据 的 交易 与 广告 的 交易 有 什么 不 同 特点 ， 应 如 何 借鉴 广告 竞价 的 模式 发 展 
数据 的 竞价 交易 ? 

4. 在 与 广告 相关 的 数据 交易 中 ， 数 据 采取 限量 或 不 限量 的 供应 策略 ， 会 对 流量 
和 数据 的 市 场 价格 产生 什么 影响 ? 
本 书 由 [ePUBw.COM] 整理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
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通过 前 面 几 章 的 产品 介绍 ， 我 们 了 解 了 计算 广告 从 合约 到 竞价 再 到 程序 化 交易 
的 产品 演进 路 线 。 可 以 说 ， 进 入 程序 化 交易 时 代 以 后 ， 互 联网 广告 产业 多 方 参与 、 
规模 化 利用 流量 和 数据 的 整个 产品 体系 已 经 逐渐 完善 。 广 告 从 依附 于 媒体 的 简单 变 
现 功能 已 经 进化 成 了 独立 的 业务 体系 ， 在 互联 网 行业 中 的 地 位 举足轻重 。 但 是 从 另 
外 一 个 方面 来 看 ， 广告 毕竟 是 离 不 开 用 户 产 品 的 。 目 前 的 广告 交易 体系 越 来 越 倾向 
于 直接 使 用 第 一 方 数据 和 第 三 方 数据 作 指 导 ， 在 独立 的 交易 环境 中 完成 投放 ， 而 广 
告 与 媒体 内 容 的 关系 则 在 一 定 程度 上 被 边缘 化 了 。 应 该 说 ， 这 并 不 是 一 个 好 的 趋 
势 ， 与 内 容 基 本 独立 的 广告 交易 必然 会 在 效果 和 用 尸体 验方 面 磁 到 天 人 花 板 。 将 内 容 
与 广告 决策 深度 融合 的 原生 广告 产品 是 本 章 讨论 的 重点 ， 这 部 分 产品 在 整体 产品 演 
进 过 程 中 的 位 置 如 图 7-1 所 示 。 
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图 7-1 原生 广告 产品 

需要 说 明 的 是 ， 迄 今 为 止 ， 原 生 广告 没有 一 个 清晰 的 定义 。 实 际 上 ， 从 软文 、 
搜索 广告 到 社交 网 络 中 的 信息 流 广告 都 有 一 些 原生 广告 的 意味 ， 但 也 都 只 反映 了 原 
生 广 告 的 一 个 侧面 。 应 该 说 所 有 将 商业 化 内 容 与 非 商 业 化 内 容 统一 生产 或 混合 排序 
的 严 品 都 可 以 认为 与 原生 广告 有 关系 ， 这 样 的 产品 方向 经 常 被 称 为 内 容 即 广告 
(content as ad) 。 我 们 也 会 介绍 几 种 常见 的 原生 广告 初级 产品 。 

必须 指出 的 是 ， 原 生 广 告 得 到 充分 的 重视 是 在 移动 互联 网 时 代 到 来 以 后 。 这 是 
因为 在 屏幕 较 小 的 移动 设备 环境 下 ， 独 立地 展示 和 运营 广告 与 内 容 遇 到 了 巨大 的 挑 
战 。 于 是 ， 业 界 开始 探讨 将 原生 广告 部 分 代 蔡 一 般 展示 广告 ， 提 高 移动 环境 下 广告 
的 变现 能 力 。 实 际 上 ， 第 一 个 真正 由 第 三 方 提供 的 平台 化 的 原生 广告 产品 也 产生 于 
移动 互联 网 。 因 此 ， 从 移动 广告 的 角度 出 友 ， 我 们 更 能 深切 地 理解 原生 广告 产生 的 
天 键 诉 求 以 及 它 所 面临 的 主要 产品 挑战 。 

不 过 ， 与 内 容 结合 的 原生 广告 如 何 能 够 规模 化 、 交 易 化 运营 是 产品 面临 的 一 个 
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关键 点 以 及 将 会 面临 的 主要 挑战 。 虽 然 原 生 的 时 代 尚 未 到 来 ， 我 们 仍 希 望 与 大 家 一 
起 展望 这 样 的 产品 形态 可 能 会 对 互联 网 广告 ， 特 别 是 移动 互联 网 广告 ， 乃 至 整个 移 
动 互联 网 生态 市 来 的 变革 性 影响 。 


7.1 = T 


在 探讨 原生 广告 的 产品 天 键 之 前 ， 我 们 先 来 看 一 下 市 场 上 早已 出 现 的 几 种 内 容 
与 广告 深度 结合 的 广告 产品 ， 目 的 是 对 这 个 问题 形成 一 些 感性 认识 。 


7.1.1 信息 流 广告 


信息 流 广告 起 源 于 社交 网 络 。2616 年 4 月 ,Twitter 发 布 了 “Promoted 
Tweets” 产 品 ， 人 在 其 信息 流 中 插入 商业 化 的 内 容 ， 如 图 7-2 所 示 。 这 样 的 信息 流 广 
告 后 来 也 被 其 他 的 社交 网 络 ( 如 ”Facebook、 微 博 、QQ 空 间 等 ) 广泛 采用 。 信 息 流 
广告 由 于 自然 地 出 现在 用 户 内 容 消费 的 主 路 径 上 ， 而且 展 示 形 式 与 内 容 非 常 接近 , 
因此 吸引 的 关注 比较 有 效 ， 这 也 使 得 其 效果 比 一 般 展示 广告 有 较 大 的 提升 。 正 是 从 
这 种 信息 流 广告 开始 ， 大 家 开始 意识 到 ， 内 容 与 广告 的 有 机 融合 对 于 提升 广告 效果 
十 分 有 效 ， 这 也 众生 了 对 于 原生 广告 系统 性 的 探讨 。 
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图 7-2 "Promoted Tweets” 信 息 流 广告 示例 

如 今 ， 信 息 流 广告 也 出 现在 一 些 非 社交 类 的 媒体 上 ， 如 Yahoo! MAA, $ 
头条 等 。 这 些 适合 于 信息 流 广告 的 媒体 都 有 一 个 共同 特点 ， 即 信息 流 中 的 各 条 内 容 
相关 性 并 不 强 。 在 这 种 情形 下 ， 插 入 一 条 商业 化 内 容 在 形式 上 不 会 显得 太 突 克 ， 用 
户 体 验 也 会 较 好 。 如 果 在 一 些 垂直 媒体 的 信息 流 中 提供 广告 ， 则 需要 考虑 上 下 文 的 
影响 ， 以 达到 原生 的 目的 。 实 际 上 ， 在 社交 了 网 站 上 投放 信息 流 广 告 时 ， 如 果 考 虑 与 
周围 内 容 的 相关 性 也 会 提升 一 些 效果 。 

社交 网 络 信息 流 中 的 内 容 是 根据 产生 时 间 排 序 的 ， 因 此 无 法 将 内 容 与 广告 按 同 
一 准则 排序 ， 一 般 是 将 广告 直接 放 在 固定 的 位 置 上 。 

11 告 

在 竞价 广告 产品 中 ， 我 们 重点 介绍 了 搜索 广告 ， 现 在 可 以 损 一 个 视角 再 作 解 

读 。 


搜索 广告 的 展示 形式 与 自然 搜索 结果 基本 一 致 ， 也 可 以 看 成 是 存在 于 同一 个 信 


息 流 当中 。 因 此 ， 它 的 高 变现 能 力也 部 分 地 源 于 这 种 类 原生 的 产品 形式 。 另 外 ， 搜 
率 三 告 的 另 一 个 特点 ， 即 用 一 个 明确 的 查询 来 触 友 广告 ， 对 我 们 探索 原生 广告 也 很 
有 局 及 : 要 想 真 正 做 到 “内 容 即 广告 ”， 显 然 在 广告 决策 过 程 中 要 明确 考虑 用 户 当 
前 的 任务 和 意图 ， 并 直接 根据 这 些 来 触 友 广 告 。 

搜索 广告 与 内 容 的 混合 方式 有 两 种 ， 一 种 是 将 广告 在 固定 的 位 置 上 展现 ， 另 一 
种 是 将 广告 与 内 容 混合 排列 在 一 起 。 当 然 ， 在 实际 的 搜索 引 敬 中， 广告 与 内 容 也 是 
来 源 于 不 同 的 服务 ， 前 者 按照 eCPM 排序 ， 后 者 按照 相关 性 排序 ， 两 者 混合 的 规则 
也 是 一 些 固定 的 逻辑 ， 并 没有 实现 按 同 一 准则 的 统一 排序 。 应 该 说 ， 如 果 按照 内 容 
即 广告 的 思路 前 进 ， 那 么 在 搜索 引擎 中 ， 内 容 与 广告 按照 同一 准则 的 统一 排序 将 会 
是 一 个 有 价值 的 友 展 方向 。 


7.1.3 软 = 


在 这 种 广告 类 型 中 ， 内 容 本 身 就 是 为 了 委婉 地 宣传 某 种 产品 而 生产 的 。 很 多 网 
站 的 内 容 营 销 实际 上 指 的 就 是 这 种 软文 广告 。 这 种 方式 也 从 一 个 独特 的 角度 体现 
了 “原生 ”的 意义 : 较 高 质量 的 软文 往往 让 读者 可 以 像 接受 普通 文章 一 样 接受 其 内 
容 ， 因 而 宣传 效果 也 会 比较 好 。 
http://news.pedaily.cn/261416/286141021372531.shtml 给 出 了 一 条 上 典型 的 软 
文 “ 揭 秘 单 品 餐 饮 的 暴利 账本 : 一 道 冒 菜 如 何 年 入 2 亿 ? ”请 大 家 参考 。 不 过 这 种 软 
文 广告 的 生产 和 传播 过 程 很 难 被 标准 化 ， 往 往 只 适用 于 比较 大 的 品牌 广告 主 ， 不 是 
产品 化 交易 的 对 象 ， 因 此 并 不 是 我 们 重点 讨论 的 广告 产品 。 

虽然 软文 本 身 离 广告 产品 较 远 ， 不 过 也 给 我 们 提供 了 重要 的 启发 : 在 内 容 的 生 
产 过 程 中 ， 应 该 同时 考虑 到 商业 化 的 可 能 。 虽 然 整 篇 的 软文 生产 很 难 做 到 规模 化 ， 
但 是 如 果 将 内 容 中 一 些 相对 标准 化 的 片段 变 成 商业 化 信息 如 何 呢 ? 显然 ， 这 个 方向 
是 值得 探索 的 。 


7.1.4 Re 


在 前 面 介 绍 广 告 网 络 时 ， 我 们 提 到 了 一 种 联盟 (affiliate ) 模式 ， 即 由 媒体 
从 广告 库 中 自由 选择 要 推广 的 对 象 ， 并 按照 目 己 控制 的 展现 方式 进行 推广 。 虽 然 说 
这 是 比较 原始 的 广告 产品 形式 ， 但 也 对 原生 的 思路 有 一 定局 友 : 只 有 给 媒体 一 定 的 
选择 广告 的 权限 ， 才 能 比较 容易 地 做 到 广告 与 内 容 在 主题 上 的 和 谐 ， 也 才 会 产生 像 
淘宝 客 那 样 可 以 将 广告 自由 地 嵌入 博客 和 各 种 网 站 。 

不 过 还 是 要 说 明 ， 这样 简单 的 联盟 方式 并 不 是 我 们 理想 中 的 原生 广告 形式 。 
为 在 这 种 方式 下 ， 数 据 基 本 上 无 法 友 挥 作用 ， 而 且 也 并 没有 一 个 强大 的 第 三 万 平台 
专业 化 地 负责 广告 的 运营 和 投放 ， 因 此 其 市 场 相对 原始 ， 规模 化 程度 也 有 限 。 


7.2 移动 广告 的 现状 与 挑战 


移动 互联 网 的 快速 上 友 展 对 所 有 在 线 服 务 都 产生 了 颠覆 式 的 推动 ， 人 在 线 广告 行业 
当然 也 不 例外 。 移 动 互联 网 广告 的 产品 和 交易 形式 可 以 视 为 PC 互联 网 广告 的 自然 
延伸 : 无 论 是 PC 上 展示 广告 网 络 的 方式 还 是 搜索 竞价 排名 的 方式 都 在 移动 流量 被 变 
现 的 一 开始 就 被 移植 到 了 移动 环境 下 。 我 们 前 面 讨 论 的 在 线 广告 市 场 的 大 多 数 交 易 
机 制 和 产品 形态 在 移动 广告 世界 仍然 是 适用 和 存在 的 。 不 过 ， 移动 广告 也 存在 着 上 自 
己 非常 鲜明 的 特点 ， 这 些 特点 使 得 这 一 市 场 同 时 存在 着 巨大 的 机 会 和 挑战 ， 特 别 是 
仔 在 着 广告 原生 化 的 巨大 动力 。 因 此 ， 我 们 将 以 移动 广告 为 典型 的 场景 ， 分 析 原 生 
广告 的 天 键 产品 方向 。 

7.2.1 移动 广告 的 特点 

由 于 移动 互联 网 越 来 越 显 关 的 重要 性 ， 业界 对 移动 广告 产品 逐渐 产生 了 独立 的 
思考 和 认识 。 在 认 清 了 移动 设备 的 一 些 独特 属性 ， 特别 是 可 以 对 人 的 行为 模式 进行 
全 方位 、 全 天 候 分 析 这 一 特点 后 ， 我 们 会 友 现 ， 移 动 广告 面临 着 前 所 未 有 的 巨大 市 


场 机 遇 。 

移动 广告 的 库存 将 随 着 移动 设备 的 爆发 式 增长 而 迅猛 成 长 ， 这 一 点 带 来 的 流量 
红利 当然 是 最 大 的 机 遇 。 不 过 ， 我 们 更 天 注 的 是 从 产品 本 身 来 看 ， 移 动 广告 究竟 给 
我 们 市 来 了 哪些 新 的 机 会 呢 ? 我们 认为 至 少 有 以 下 两 点 。 

(1) 情境 广告 的 可 能 性 。 从 用 户 行为 分 析 角 度 来 看 ， 移 动 设备 与 PC 最 大 的 不 同 
是 可 以 对 用 户 行为 模式 进行 全 天 候 的 监测 和 分 析 。 移 动 设备 的 特点 是 一 直 跟 用 户 在 
一 起 ， 并 且 从 地 理 位 置 、 生 活 状 态 、 需 求 意图 等 各 方面 都 能 对 用 户 有 深入 的 理解 。 
因此 ， 在 移动 环境 下 ， 受 众 定 向 完全 有 可 能 做 到 从 情境 和 意图 出 龙 ， 而 不 是 仪 仪 根 
据 兴 趣 推 送 商 品 。 举 个 例子 ， 根 据 简 单 的 地 理 位 置 分 析 就 可 以 判断 用 户 是 在 家 还 是 
在 上 班 ， 如 果 是 在 上 班 ， 那 么 就 不 应 该 向 其 推送 游戏 广告 。 

(2) 大 量 潜在 的 本 地 化 广告 主 。 广 告发 展 到 今天 ， 可 以 说 没有 任何 主流 的 渠道 
可 以 帮助 本 地 化 小 商家 做 推广 。 电 视 、 路 牌 这 种 品牌 性 媒体 目 不 必 癌 ， 融 是 在 线 广 
告 在 PC 时 代 往 往 也 只 能 定位 到 城市 级 别 ， 这样 的 地 域 定 向 对 于 一 个 小 区 的 理发 店 来 
说 显然 是 粒度 太 粗 了 。 而 在 移动 环境 下 ，GPS、 蜂 富 、Wi -Fi 等 多 种 精确 定位 的 手段 
使 得 基于 精确 地 理 位 置 的 本 地 化 广告 变 得 可 行 。 当 然 ， 精 确 地 理 位 置 也 需要 结合 移 
动 特 点 ， 用 情境 化 的 方式 来 使 用 。 例 如 ， 我 们 检测 到 一 个 用 户 早 上 沿 着 地 铁 线 移 
动 ， 并 于 八 点 半 左 右 在 国贸 出 站 ， 那 么 很 有 可 能 他 是 一 位 正在 赶 时 间 的 上 班 族 ， 
此 可 以 向 他 推送 地 铁 站 口 麦 当 劳 的 早餐 套餐 。 

7.2.2 移动 广告 的 创意 形式 

上 面 说 人 到， 移动 广告 就 其 交易 形态 而 言 ， 与 PC 广告 并 无 本 质 区 别 。 但 在 广告 的 
展现 和 转化 路 径 上 体现 出 比较 独特 的 一 面 ， 这 也 使 得 移动 广告 在 PC 广告 创意 形式 
的 基础 上 衍生 出 一 些 新 的 形式 ， 如 插 屏 广告 和 积分 墙 等 。 这 些 新 的 创意 形式 ， 一 方 
面 为 传统 的 横幅 广告 提供 了 符合 移动 设备 特点 的 补充 ， 另 一 方面 也 使 得 大 家 开始 专 


门 探讨 和 设计 面向 移动 的 创意 方案 。 就 目前 市 场 来 看 ， 移 动 展示 广告 主要 的 创意 形 


式 有 横幅 、 揪 屏 、 开 屏 、 锁 屏 、 推 荐 墙 、 积 分 墙 等 ， 示 例如 图 7-3 所 示 。 
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横幅 Hi ETA ei 
图 7-3 移动 广告 形式 示例 

1 .横幅 与 插 屏 

横幅 ( 如 图 7-3 所 示 ) 是 移动 应 用 中 产生 比较 早 的 广告 创意 形式 ， 也 是 直接 从 PC 
广告 的 形式 传承 下 来 的 。 虽 然 形式 上 类 似 ， 但 在 移动 广告 中 ， 横 幅 这 种 形式 会 有 一 
定 的 问题 。 首 先 ， 移 动 横幅 广告 的 点 击 率 远 远 高 于 PC 横幅 广告 ， 经 常会 达到 2% ~ 
3%， 当 然 其 中 有 很 大 比例 是 误 点 击 。 横 幅 的 误 点 在 移动 设备 上 会 严重 打 乱 用 户 的 任 
务 ， 因 此 对 用 户 体验 的 伤害 也 较 大 。 其 次 ， 广 告 主观 察 到 的 转化 率 很 差 ， 这 一 方面 
是 由 于 大 量 的 误 点 击 不 会 产生 任何 效果 ， 另 一 方面 是 由 于 广告 主 的 后 续 转 化 体系 在 
移动 上 不 够 成 熟 ， 当 然 这 并 不 是 横幅 独 有 的 问题 ， 我 们 后 面 还 会 提 到 。 


图 7-3 ”中 示例 的 插 屏 广告 与 视频 中 的 暂停 广告 非常 类 似 ， 往 往 也 是 出 现在 游戏 
或 其 他 应 用 暂停 时 。 这 种 广告 同样 有 着 点 击 率 虚 高 、 转 化 相对 较 差 等 特点 ， 而 且 可 
能 比 横幅 更 加 严重 。 

虽然 横幅 和 揪 屏 有 这 些 间 题 ， 但 是 由 于 广告 网 络 、 广 告 交 易 平台 等 成 熟 交 易 体 
系 的 存在 ， 这 种 标准 化 程度 较 高 的 形式 最 容易 形成 规模 。 因 此 ， 到 目前 为 止 ， 横幅 
和 插 屏 广告 仍然 是 移动 展示 广告 最 主要 的 形式 之 一 ， 并 且 主 要 以 竞价 方式 售卖 为 
主 。 另 一 方面 ， 正 是 由 于 这 些 广告 形式 在 移动 设备 上 面临 的 新 挑战 ， 才 让 业界 认真 
思考 移动 广告 更 加 有 效 的 产品 形式 。 

2. 开 屏 与 锁 屏 

开 屏 是 在 一 个 应 用 打开 时 在 加 载 页 面 展示 的 全 屏 广告 ， 读 者 在 新 溪 微 博 、 网 易 
新 闻 等 应 用 加 载 时 经 常 可 以 看 到 。 开 屏 可 以 说 是 移动 广告 形式 比较 好 的 探索 之 一 ， 
因为 用 户 在 等 竺 应 用 打开 时 还 没有 了 明确 的 任务 ， 因 此 不 会 对 广告 很 反感 。 另 外 ， 全 
屏 的 展示 形式 让 这 种 广告 的 品牌 价值 较 高 ， 因 此 在 实际 售卖 时 往往 以 合约 方式 为 
E. 

与 开 屏 类 似 ， 还 有 一 种 锁 屏 广告 ， 他 是 在 用 户 的 移动 设备 被 锁定 时 展示 的 广 
告 ， 其 特性 与 开 屏 广告 很 相似 ， 对 用 户 体验 的 影响 也 较 小 。 

3 .推荐 墙 与 积分 墙 

由 于 移动 设备 中 应 用 生态 体系 的 存在 ， 尚 有 相当 比例 的 移动 广告 了 预算 是 以 推广 
应 用 下 载 为 目标 的 。 因 此 ， 也 产生 了 一 些 专门 针对 此 类 推广 需求 的 广告 形式 。 最 直 
接 的 下 载 类 广告 形式 是 推荐 墙 ( offer wall) ， 如 图 7-3 所 示 。 从 技术 上 说 ， 这 可 
以 类 比 于 上 一 章 提 到 的 站 外 推荐 。 不 过 ， 推荐 墙 并 没有 成 为 移动 应 用 推荐 类 广告 最 
主要 的 形式 。 

实践 中 更 音 见 的 是 一 种 叫 “ 积 分 擂 ” 的 产品 。 积 分 载 同样 是 向 用 户 推送 应 用 下 
载 类 广告 ， 不同 的 是 在 用 户 下 载 并 激活 该 应 用 后 会 得 到 一 定 的 积分 。 这 些 积分 往往 


可 以 品 损 游戏 币 、 电 话 卡 等 虚拟 物品 ， 以 此 刺激 用 户 的 下 载 行为 。 积 分 墙 很 容易 让 
我 们 联想 起 返利 网 这 种 推广 形式 。 这 样 的 形式 虽然 直观 的 点 击 和 激活 都 很 好 ， 但 是 
后 续 的 转化 行为 往往 不 能 得 到 保证 。 不 过 ， 在 特殊 场景 下 ， 积 分 墙 这 种 推广 方式 也 
有 下 列 特殊 的 价值 。 

(1) 应 用 冲 榜 。 当 开 友 者 开 友 的 新 应 用 上 线 时 ， 往 往 需要 短 时 间 内 的 大 量 下 载 
冲 高 在 Apple Store, Google Play 等 这 类 应 用 商店 里 的 排名 ， 因 此 积分 墙 是 一 个 
很 好 的 渠道 。 不 过 在 中 国 ， 由 于 Android 市 场 非常 割裂 ， 因 此 积分 墙 主要 流行 于 
iOS, ff] Apple 从 2813 年 开始 也 明确 表示 会 打击 这 类 用 积分 推广 影响 榜 单 的 方法 ， 
因此 其 前 景 并 不 乐观 。 

( 2) 游戏 开 服 。 在 线 手 机 游戏 增加 新 的 服务 器 时 ， 需 要 短 时 间 内 大 量 玩家 进入 
以 形成 社区 环境 ， 因 此 也 常常 选择 积分 墙 。 


7.2.3 移动 广告 的 挑战 


虽然 移动 广告 前 景 广阔 ， 但 由 于 与 PC 环境 巨大 的 差异 ， 很 多 在 广告 产品 中 业已 
形成 的 经 验 和 规律 在 移动 环境 下 也 直到 了 不 小 的 挑战 。 在 这 些 挑战 里 ， 下面 的 三 点 
尤其 值得 关注 ，。 

( 1) 应 用 生态 造成 的 行为 数据 割裂 。 在 目前 的 移动 互联 网 环境 中 ， 并 没有 形成 
PC 时 代 那 样 的 以 ”Web 为 核心 的 生态 ， 取 而 代 之 的 是 以 应 用 为 主 的 生态 体系 ， 这 有 些 
像 PC 早 些 年 的 情形 。 

应 用 与 Neb 相 比 ， 虽 然 在 用 户 体 验 的 流畅 性 、 功 能 丰富 性 方面 有 一 定 的 优势 ， 但 
也 市 来 了 对 商业 产品 的 挑战 : 各 应 用 之 间 相 对 独立 ， 没 有 Web 环境 下 超 链接 那样 的 
组 织 体系 ， 因 此 数据 的 来 源 也 相对 割裂 ， 整 合 起 来 比较 困难 。 虽 然 理论 上 说 ， 移 动 
环境 对 用 户 的 了 解 更 加 深入 ， 但 实际 操作 中 数据 的 获取 更 加 困难 。Web 生 态 下 党 用 的 
数据 交换 接口 ， 如 JavaScript 跟 路 代 码 之 类 ， 在 应 用 生态 中 需要 用 更 加 复杂 的 SDK 


来 解决 ， 可 行 性 往往 大 打折 扣 。 

( 2) 许多 PC 时 代 广 告 主 移动 化 程度 还 不 够 ， 无 法 充分 消化 广告 囊 来 的 流量 。 虽 
然 原理 上 讲 ， 将 一 个 PC 的 广告 投放 迁移 到 移动 上 非常 入 单 ， 但 在 实际 操作 中 会 遇 到 
后 续 转化 流程 上 巨大 的 麻烦 。 

首先 ， 是 落地 页 展示 和 交互 模式 的 巨大 差别 。 在 图 7-4 中 ， 我 们 对 比 了 一 个 成 熟 
广告 主 的 PC 并 与 移动 端 落 地 页 。 很 显然 ， 如 果 将 PC 端的 落地 页 直接 照搬 到 移动 投放 
中 ， 交 互 体验 会 非常 差 ， 效 果 当 然 也 不 会 好 。 这 还 仪 仪 是 落地 页 ， 如 果 涉 及 后 续 转 
化 流程 的 多 个 页 面 ， 可 以 想见 广告 活动 的 移动 化 不 仅仅 是 个 系统 工程 ， 而 且 很 可 能 
是 要 等 待 广告 主 目 身 业务 移动 化 的 进程 。 束 目前 而 言 ， 移动 端 业 务 交互 较 完善 的 中 
小 广告 主 的 比例 仍然 不 算 高 。 
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图 7-4 同一 广告 在 PC 端的 落地 页 ( Zr ) 和 移动 端的 落地 页 ( 石 ) 


有 人 会 有 疑问 ， 既 然 移动 环境 为 应 用 生态 所 主导 ， 为 什么 广告 主 不 能 把 落地 页 
做 成 应 用 ， 再 用 广告 推广 此 应 用 呢 ? 对 于 中 大 型 的 广告 主 ， 如果 业务 是 用 户 粘 性 较 
高 、 周 期 性 访问 的 ， 这 样 的 策略 应 该 更 加 合适 。 但 对 于 大 量 中 小 广告 主 或 者 那些 业 
务 本 身 在 线 上 交互 较 浅 的 广告 主 而 言 ， 指望 用 户 下 载 应 用 来 完成 广告 转化 的 过 程 是 
不 现实 的 。 试 想 ， 你 会 为 了 了 解 一 次 4S 店 组 织 的 试 驾 活动 而 专门 下 载 此 4s 店 开发 的 
应 用 吗 ? 

为 了 让 广告 主 后 续 的 转化 流程 更 符合 移动 环境 的 用 户 使 用 习惯 ， 移 动 广告 的 落 
地 页 也 产生 了 一 些 新 模式 ， 比 如 点 击 广告 直接 拨打 广告 主 服 务 电话 或 者 友 送 短信 ， 
这 也 都 是 为 了 让 后 续 的 转化 流程 更 加 顺畅 。 

(3) 移动 广告 的 产品 形态 需要 一 次 革命 。 上 面谈 到 的 传统 横幅 广告 在 移动 环境 
下 遇 到 的 问题 ， 实 际 上 反映 了 产品 形态 的 深层 次 问题 。 在 传统 的 在 线 广 告 产品 形态 
中 ， 广 告 位 总 是 和 内 容 放 在 不 同 的 单元 中 ， 以 相对 独立 的 产品 运营 。 但 到 了 移动 环 
境 下 ， 由 于 屏幕 的 尺寸 减 小 了 很 多 ，, 如 果 被 广告 位 再 占据 一 块 空间 ,那么 变现 与 用 
尸体 验 的 矛盾 丈 显 得 非常 突出 了 。 

那么 ， 移 动 广告 产品 形态 的 变革 有 哪些 方向 呢 ? 显然 ， 前 面 介 绍 的 原生 广告 是 
个 值得 探索 的 方向 。 原 生 广告 的 目的 就 是 要 解决 广告 与 内 容 对 立 的 现象 ， 希 望 广告 
也 能 在 用 户 正 常 的 内 容 消费 中 和 谐 地 存在 。 如 果 这 样 的 闫 品 能 够 友 展 起 来 ， 那 么 也 
束 不 存在 广告 与 内 容 争 抢 版 面 并 严重 损害 用 尸体 验 的 问题 了 。 正 是 基于 此 , 我 们 才 
将 移动 广告 和 原生 广告 这 两 个 并 非 并 列 关 系 的 问题 在 这 一 章 中 一 起 讨论 。 在 我 们 看 
来 ， 只 有 原生 化 才 是 移动 广告 的 未 来 。 

与 上 面 我 们 介绍 的 那些 原生 广告 产品 相 比 ， 移 动 广告 对 原生 化 提出 了 一 些 新 的 
要 求 ， 最 重要 的 一 点 ， 在 上 面 的 那些 原生 广告 例子 中 ， 运营 原生 广告 的 都 是 媒体 本 
E, 显然， 这 样 的 万 式 只 有 大 中 型 媒体 才 有 能 力 做 。 于 是 ， 如 何以 独立 广告 平台 的 
身份 提供 原生 广告 ， 像 普通 展示 广告 那样 进行 交易 的 市 场 ， 将 是 原生 广告 面 对 规 模 
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2.5 原生 [ ce 
我 们 从 原生 现 有 的 产品 状态 和 共同 特点 出 友 ， 来 看 看 市 场 真 正 需 要 的 原生 广告 


平台 的 产品 特征 。 注 意 ， 下 面 我 们 讨论 的 基础 是 由 独立 广告 平台 ， 而 不 是 媒体 本 身 
提供 广告 。 
7.3.1 表现 原生 与 意图 原 


从 7.1 书 提 到 的 几 种 原生 广告 产品 中 可 以 友 现 ，“ 原 生 ” 这 一 概念 实际 上 有 两 
种 不 同 的 诉求 : 一 种 诉求 是 将 广告 的 展示 风格 和 样式 变 得 与 内 容 相 一 致 ， 从 而 做 到 
产品 形式 上 的 “原生 ” | 另 一 种 诉求 是 将 广告 的 投放 决策 逻辑 与 内 容 生 产 相 一 致 ， 
从 而 做 到 用 户 意 图 上 的 “原生 ”。 我 们 把 这 两 种 原生 分 别称 为 表现 原生 与 意图 原 
=. 

表现 上 的 原生 性 需要 媒体 来 控制 广告 展示 形式 。 从 信息 流 广告 、 搜 索 广告 这 些 
例子 中 可 以 总 结 出 原生 广告 的 最 重要 也 最 和 直 完 的 产品 原则 ， 即 内 容 与 广告 的 展示 形 
陈 要 尽 可 能 一 致 。 从 广告 有 效 性 原理 来 看 ， 这 样 做 有 助 于 用 户 目 然 地 给 予 广告 更 多 
的 关注。 而 在 独立 原生 广告 平台 的 情形 下 ， 要 做 到 广告 与 内 容 表 现 上 的 和 谐 ， 只 能 
由 媒体 来 设计 和 控制 展 式 样式 。 

意图 上 的 原生 性 需要 媒体 明确 提供 广告 需求 。 如 果 进 一 步 比较 搜索 广告 和 社交 
网 络 信 息 流 广告 ， 会 发 现 前 者 的 效果 要 远 远 好 于 后 者 。 究 其 原因 ， 是 因为 搜索 广告 
的 投放 决策 是 基本 完全 按照 内 容 结果 的 展示 原则 进行 的 ， 也 丈 是 说 ， 我 们 在 以 投放 
内 容 的 方式 匹配 广告 。 根 据 这 一 点 ， 可 以 得 到 原生 广告 的 另 一 个 产品 原则 ， 即 应 该 
用 媒体 提供 的 广告 需求 来 篇 选 广告 。 


在 7.1 节 介绍 的 原生 广告 产品 中 ， 社 交 网 络 信息 流 广告 侧重 于 表现 的 原生 性 ,而 
搜索 广告 在 表现 和 意图 两 个 方面 都 是 原生 的 。 大 体 而 言 ， 对 于 那些 用 户 直 接 意 图 比 
较 模 糊 的 用 户 产 品 ， 如 社交 网 络 、 新 闻 列 表 等 ， 表 现 原 生 的 广告 产品 就 足够 了 ; 而 
对 于 用 户 直 接 提 供 明确 意图 的 用 户 产 品 ， 如 搜索 ， 则 最 好 要 做 到 意图 上 的 原生 性 。 
除了 这 两 类 产品 ， 互 联网 上 还 有 大 量 的 用 户 产 品 在 实际 上 有 比较 明确 的 用 户 意 图 ， 
但 是 并 未 以 查询 等 方式 直接 提供 ， 并 且 表 现形 式 上 也 不 是 规整 的 信息 流 模 式 ， 联 盟 
或 软文 适用 于 这 样 场景 的 原生 广告 形式 ， 这 实际 上 也 是 兼顾 了 表现 和 意图 上 的 原生 
性 。 但 是 ， 联 盟 和 软文 并 不 能 像 其 他 广告 产品 那样 以 计算 的 方式 来 优化 效果 ， 并且 
通过 广告 市 场 规模 化 地 交易 ， 因 此 在 这 万 面 仔 在 着 探索 空间 。 

比较 理想 的 原生 广告 平台 应 该 能 兼顾 表现 原生 和 意图 原生 的 要 求 ， 并 且 仍 然 可 
以 以 第 三 万 平台 的 形式 规模 化 地 运营 ， 而 这 样 的 设想 在 移动 广告 的 推动 下 也 已 经 形 
成 了 一 定 的 产品 趋势 ， 我们 将 在 下 一 节 中 来 介绍 。 
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在 一 个 第 三 方 运 宫 的 原生 广告 平台 中 ， 媒 体 应 该 提供 哪些 合理 且 有 指导 性 的 广 
告 需求 呢 ? 简单 来 说 ， 一 是 要 判断 用 户 当 前 的 意图 ， 二 是 要 确定 根据 用 尸 的 意图 提 
供 什么 信息 。 例 如 ， 在 一 篇 旅游 博客 上 ， 媒体 运 营 方 可 以 很 容易 地 判断 读者 一 般 是 
为 了 了 解 该 目的 地 的 旅游 信息 ， 进 而 可 以 向 广告 平台 请 求 同 一 目的 地 的 酒店 作为 广 
告 。 我 们 相信 “， 通 过 这 种 方式 ， 可 以 真正 挖掘 一 家 媒体 的 商业 价值 。 这 并 不 同 于 传 
统 的 展示 广告 中 的 上 下 文 定 同 ， 因 为 在 上 下 文 定向 中 ， 是 广告 平台 ， 而 非 媒 体 玉 用 
比较 粗浅 的 目 然 语言 处 理 方法 获得 页 面 的 主题 。 对 于 用 户 的 意图 ， 这 种 面向 全 行业 
的 目 动 化 往往 行 不 通 ， 而 如 果 有 了 媒体 的 主动 参与 ， 用 户 意 图 提取 起 来 束 容 易 得 多 
J: 

广告 平台 提供 的 是 结构 化 的 付费 内 容 。 由 于 媒体 控制 广告 展示 ， 广 告 平台 返回 
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意 的 素材 。 因 此 ， 原 生 广 告 平 台 的 广告 库 的 结构 不 是 简单 的 广告 投放 和 创意 信息 ， 
是 各 行业 结构 化 的 付费 内 容 ， 这 一 点 将 会 显著 改变 广告 业态 的 结构 。 

如 果 按照 上 面 的 钦 辑 来 设计 和 运营 一 个 原生 广告 平台 ,实际 上 可 以 称 为 一 
个 “ 植 入 式 广告 ”的 投放 系统 ， 这 样 的 系统 逻辑 是 在 内 容 的 行文 中 自然 地 植 入 付费 
言 妃 。 我 们 仍然 以 上 面 提 到 的 旅游 网 站 为 例 ， 用 图 7-5 中 的 概念 性 示例 看 一 下 整个 投 
放 决 策 过 程 。 

图 中 的 广告 请 求 上 友 生 在 某 拉 防 旅 行 游记 的 网 页 上 。 在 这 样 的 内 容 中 ， 除 了 游记 
本 身 ， 编 辑 很 自然 地 会 推荐 拉萨 的 酒店 ,以 方便 读者 。 然 而 我 们 知道 ， 酒 店 信息 是 
高 度 商 业 化 的 内 容 ， 有 没有 可 能 以 付费 内 容 的 方式 从 第 三 方 广告 平台 获得 呢 ? 这 显 
然 是 可 行 的 。 


拉萨 游记 结构 化 付费 内 容 库 
Les is ue me | 
[L| | lol. 





"— 查询 : 类 型 = 酒店 ; 
BERE: Ht =H 





图 7-5 植 入 式 原 生 广告 投放 过 程 示 意 

(1) 首先 ， 网 站 的 运营 者 给 出 用 尸 的 意图 ， 并 用 一 个 结构 化 查询 “类 型 = 酒 
店 ; 地 氮 = 拉萨 ”来 表示 。 这 里 的 “类 型 ”限定 的 是 需要 什么 样 的 付费 内 容 ， 而 “地 
点 ” 则 是 与 此 类 型 相关 的 查询 条 件 。 

(2) 广告 投放 机 收 到 此 查询 后 ， 会 去 酒店 库 中 检索 符合 条 件 的 酒店 。 在 得 到 候 
选 后 ， 广 告 投放 机 仍然 要 根据 eCPM 对 各 个 候选 排序 ， 而 在 此 排序 过 程 中 ， 人 群 标签 
仍然 可 以 使 用 ， 比 如 收入 水 平 较 高 的 用 户 可 能 对 高 星 级 的 酒店 点 击 率 较 高 。 

( 3) 排序 完成 以 后 ， 将 结构 化 的 酒店 信息 拼 闭 泻 染 妆 入 页 面 的 过 程 由 媒体 来 控 
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字段 ,加 工 成 最 终 展示 出 来 的 创意 ， 而 这 样 的 创意 是 可 以 做 到 与 内 容 无 颖 融合 的 。 
在 实际 产品 中 ， 如 果 将 每 一 次 的 广告 演 染 都 交 由 媒体 处 理 ， 既 对 媒体 提出 过 高 的 技 
术 要 求 ， 又 不 利于 点 击 监测 、 反 作 次 等 环节 的 实施 。 因 此 ， 我 们 可 以 采用 一 种 等 价 
的 方法 : 由 媒体 按照 广告 平台 的 格式 提供 泻 染 模 板 ， 在 广告 平台 审核 通过 后 ， 每 次 
展示 按照 此 模板 来 拼 浅 泻 染 ， 最 后 返回 的 与 普通 广告 一 样 ， 仍 然 是 一 段 HTML 片 段 。 

以 植 入 式 广 告 的 逻辑 来 运营 原生 广告 ， 是 希望 在 内 容 生 产 的 过 程 中 ， 当 某 些 片 
段 商 业 价值 较 高 时 ， 将 这 些 内 容 按 照 严 格 的 条 件 交 由 广告 平台 来 生产 。 这 样 做 ， 不 
仅 可 以 避免 现 有 的 展示 广告 产品 对 用 尸体 验 的 打扰 和 伤害 ， 而且 有 可 能 将 展示 广告 
变 成 类 搜索 广告 ， 真正 为 媒体 创造 高 价值 的 变现 能 力 。 

不 过 ， 不 要 指望 这 样 的 产品 能 在 一 夜 之 间 变 成 主流 ， 因 为 这 样 的 广告 体系 与 现 
有 体系 差别 是 巨大 的 。 它 可 能 将 会 面临 以 下 两 方面 的 挑战 。 

( 1 ) 媒体 参与 让 广告 多 了 一 个 自由 度 ， 运 营 难 度 大 大 增加 。 在 前 面 介绍 的 各 种 
广告 产品 中 ， 媒 体 对 于 除了 品牌 广告 部 分 的 交易 ， 基 本 上 都 可 以 简单 地 加 投放 代码 
或 sDK 来 完成 。 这 虽然 市 来 了 引 友 原生 广告 讨论 的 许多 问题 ， 但 也 极 大 地 方便 了 媒体 
的 流量 变现 需求 。 但 是 无 论 是 “原生 ”还 是 “ 植 入 式 ”。， 从 字面 束 可 以 理解 ， 没 有 
媒体 一 定 程度 的 参与 是 不 可 能 的 。 如 果 媒 体 以 图 7-5 所 示 的 方式 参与 广告 交易 过 程 ， 
从 生成 用 己 意 图 查询 到 泻 染 模 板 的 设计 ， 需 要 做 不 少 的 工作 。 所 以 ， 尽 管 原生 广告 
对 于 媒体 用 户 体验 和 变现 能 力 都 有 帮助 ， 但 要 想 让 中 小 型 媒体 参与 到 这 样 的 交易 过 
程 中 ， 需 要 一 个 较 长 的 市 场 培育 和 产品 教育 过 程 。 

(2) 大 量 分 行业 、 结 构 化 广告 信息 的 建立 需要 时 间 。 原 生 广 告 处 理 的 信息 从 原 
来 的 广告 创意 变 成 了 结构 化 的 付费 内 容 。 然 而 ， 即 使 是 目前 比较 大 的 广告 平台 ， 实 
际 上 也 还 没有 成 规模 地 积累 起 这 样 的 付费 内 容 库 ， 它 们 有 的 都 只 是 广告 创意 。 唯 一 
已 经 积累 起 一 些 付费 内 容 库 的 产品 是 DSP 中 的 个 性 化 重 定向 ， 其 单 品 库 主要 集中 在 电 


商行 业 。 而 大 量 的 非 商 业 化 行业 ， 如 新 闻 、 视 频 等 ， 实 际 上 也 存在 付费 推广 自己 内 
容 的 需求 ， 而 这 部 分 的 内 容 库 都 需要 市 场 慢 慢 积累 。 
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以 独立 广告 平台 方式 运营 的 原生 广告 产品 在 市 场 上 还 处 于 刚刚 萌芽 的 阶段 ， 我 
们 以 2614 年 InMobi 友 布 的 产品 为 例 进 行 介绍 。 另 外 ， 有 关 分 行业 结构 化 信息 作为 
付费 内 容 的 引入 ， 我 们 将 介绍 一 家 名 为 0utBrain 的 创业 公司 。 


1.InMobi 原生 广告 
InYob! 


作为 一 家 总 部 在 印度 的 广告 技术 公司 ，InMobi 在 创立 之 初 就 把 握 了 移动 互联 网 
广告 的 全 球 化 的 特点 ， 大 力 开 阅 全 球 市 场 ， 首 先 避 开 竞 争 激 烈 的 北美 、 欧 洲 市 场 ， 
InMobi 把 视角 对 准 印度 周边 的 新 型 市 场 ， 如 印度 尼 西 亚 、 马 来 西亚 、 沙 特 阿 拉 伯 
等 ， 等 有 了 一 定 实力 站 稳 脚 跟 后 InMobi 再 进入 北美 市 场 、 欧 洲 等 市 场 ， 经 过 不 断 的 
全 球 化 拓展 的 努力 ，InMobi 成 为 仅 次 于 Google ”Admob 的 全 球 第 二 大 移动 广告 平 
£., 覆盖 到 全 球 ” 165 个 国家 和 地 区 的 ”7.59 亿 消费 者 。InMobi 在 2812 年 的 营 收 为 
6666 万 美元 ，2613 年 就 增长 到 了 1.64 亿 美元 ， 发 展 势头 相当 迅猛 。 

在 发 展 移动 广告 平台 的 过 程 中 ，InMobi 发 现 应 用 比 网 站 更 加 重视 用 户 体 验 ， 而 
沿用 PC 闯 的 传统 横幅 广告 显然 会 影响 App 的 用 户 体验 。 对 移动 端 来 这 提升 用 户 体验 融 
可 以 提升 流量 变现 能 力 ， 由 于 移动 端的 环境 限制 相对 于 PC 端 更 重要 ，InMobi 在 
洞察 到 这 一 点 后 ， 在 2614 年 年 初 推出 了 原生 广告 平台 。 原 生 广告 能 够 完全 融入 应 用 
本 身 的 内 容 、 场 景 和 交互 方式 ， 不 会 打 断 用 户 与 移动 App 的 交互 和 体验 ， 用 户 也 不 
会 有 突 元 的 感觉 ， 因 而 可 以 最 大 限度 地 维护 用 户 体验 。 

InMobi 原 生 广告 的 示例 如 图 7- 6 所 示 。 在 即时 通信 、 应 用 搜索 、 桌 面 或 新 闻 等 


各 类 应 用 中 ， 都 可 以 以 本 场 定制 化 的 形式 展示 InMobi 提 供 的 应 用 下 载 类 或 品牌 类 付 
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应 用 搜索 即时 通信 果 面 新 闻 
图 7-6 InMobi 原 生 广 告示 例 
在 推出 了 原生 广告 后 ,InMobi 广 告 的 流量 变现 能 力 相对 传统 的 横幅 广告 提升 了 


5 倍 以 上 。 更 重要 的 是 ， 一 些 高 端的 应 用 更 加 愿意 尝试 这 种 广告 形式 ， 这 将 会 给 移动 
广告 市 场 市 来 深远 的 正面 影响 。 当 然 ， 目 前 的 原生 广告 在 部 署 过 程 中 还 远 远 不 能 达 


到 自动 化 ， 仍 然 需要 InMobi 工 程 师 的 参与 ， 因 此 市 场 推广 进程 并 不 快 ， 也 需要 更 加 
方便 快捷 的 媒体 解决 方案 。 
2.0utBrain 
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OutBrain 是 一 家 以 色 列 的 创业 公司 ， 它 提供 的 是 网 络 推荐 引擎 服务 ，CNN 等 媒 
体 都 是 它 的 客户 。 它 会 依据 读者 的 兴趣 ， 采 用 基于 行为 定向 的 推荐 技术 ， 在 文章 末 


尾 呈 现 一 系列 的 推荐 阅读 。 对 这 些 内容 媒 体 而 言 ， 它 提高 了 页 面 浏览 量 和 读者 互动 
度 。 同 时 ， 它 也 在 推荐 内 容 中 以 付费 内 容 这 一 原生 广告 的 形式 直接 推介 广告 主 的 内 
容 而 不 是 广告 创 晶 。 在 comScore 2613 年 的 调查 中 ， 有 超过 在 10 万 家 媒体 采用 
了 OutBrain , 每 月 产生 的 推荐 请 求 尽量 超过 1566 亿 。 

从 原生 广告 的 角度 来 看 ,0utBrain ”实际 上 迈 出 了 重要 的 一 步 ， 那 就 是 从 投放 
广告 创意 变 成 了 投放 付费 内 容 。 这 样 的 变化 使 得 效果 广告 达到 了 以 单 品 为 核心 的 推 
广 模式 ， 从 而 与 品牌 广告 彻底 差异 化 ， 而 这 样 的 单 品 库 也 正 是 我 们 上 面 讨论 的 原生 
广告 的 基础 设施 之 一 。 另 外 ， 这 种 模式 为 过 去 一 些 无 法 投 送 广告 的 内 容 类 媒体 创造 
了 有 效 的 营销 渠道 ， 从 而 拓展 了 整个 广告 市 场 的 服务 对 象 。 当 然 ， 这 样 的 运营 方式 
的 难点 在 于 如 何 从 新 闻 品 类 拓展 到 其 他 更 广泛 的 品类 。 


7.4 告 与 程 交易 
在 讨论 到 原生 广告 后 ， 本 书 的 话题 似乎 来 了 个 186°* 的 大 转弯 : 从 受众 购买 、 程 


序 化 的 市 场 趋势 变 成 了 在 媒体 深度 参与 下 将 广告 融合 到 内 容 中 。 读 者 不 免 会 产生 这 
样 的 疑问 : 这 两 条 道路 是 不 是 通 往 同一 个 方向 呢 ? 原生 广告 与 程序 化 交易 的 产品 结 
合 点 在 哪里 呢 ? 

要 回答 这 些 问 题 ， 请 大 家 先 观 察 和 思考 一 个 现象 : 搜索 广告 是 否 有 程序 化 交易 
的 可 能 呢 ? 显然 ， 我 们 没有 见 到 过 这 种 产品 场景 。 不 过 在 Facebook 的 信息 流 广告 
中 却 有 按照 广告 主 上 传 的 人 群 库 投 放 的 方式 ， 这 虽然 不 是 程序 化 交易 ， 但 目的 却 很 
类 似 ， 而 且 也 很 容易 改造 成 ”RTB 的 交易 方式 。 本 书 前 面 提 到 ， 搜索 广告 和 信息 流 广 
告 都 是 原生 广告 的 特殊 形式 ， 那 么 为 什么 在 程序 化 交易 这 一 点 上 两 种 形式 的 接受 程 
Ez alle ? 

实际 上 ， 关键 问题 就 是 原生 广告 的 触 友 是 否 根 据 用 尸 意图 进行 。 在 明确 提供 用 

意图 的 原生 广告 中 ， 完 全 开放 地 进行 RTB， 很 难 控制 付费 结果 的 相关 性 。 例 如 ， 对 


搜索 而 言 ， 能 够 做 到 良好 相关 性 的 只 有 Google 这 样 的 大 平台 ， 而 引入 大 量 DSP 参 与 
亮 价 ， 融 很 难保 证 结果 质量 。 因 此 ， 在 这 种 情形 下 ， 采 用 单个 技术 能 力 较 强 原生 广 
告 网 络 ( 也 可 以 自 曹 ) 的 方式 比较 可 行 。 而 如 果 是 像 社交 网 络 信息 流 这 样 的 原生 广 
告 环 境 ， 由 于 用 户 意图 并 不 明确 ， 也 不 要 求 广告 依 此 触 友 ， 完 全 可 以 考虑 用 程序 化 
交易 的 方式 来 运营 ， 而 且 我 们 认为 这 也 是 原生 广告 未 来 的 友 展 趋势 之 一 。 


7.5 延 介 思考 


1. 对 于 大 型 广告 主 和 中 小 广告 主 ， 移 动 互联 网 营销 相 比 PC 互联 网 营销 来 说 ， 发 
生 了 什么 有 利 或 不 利 的 变化 ? 

2 .移动 设备 与 PC 的 跨 屏 营销 主要 需求 场景 有 哪些 ? 

3 .游戏 联运 是 移动 上 常见 的 泛 广 告 产 品 ， 同 时 游戏 也 是 移动 广告 的 主要 广告 主 
类 型 之 一 。 如 果 某 公司 同时 运营 移动 广告 网 络 和 游戏 联运 产品 ， 这 两 者 应 该 如 何 分 
工 协作 ? 

4. 请 探讨 CPMACPC/CPA 等 计 费 模式 在 原生 广告 中 的 适用 场景 。 
AH [ePUBw.COM] 整理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
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See 在 线 广告 产品 实践 


根据 前 面 对 计 算 广 告 产 品 和 业务 模式 的 讨论 ， 从 广告 和 泛 广告 变现 的 角度 来 
看 ， 在 互联 网 市 场 上 主要 有 三 种 资产 能 够 变 成 钱 ， 分 别 是 数据 、 流 量 和 品牌 属性 。 
后 两 项 是 媒体 的 专属 ， 而 第 一 项 既 可 能 来 自 于 媒体 ， 也 可 能 来 自 于 第 三 方 的 数据 拥 
有 者 。 在 当今 越 来 越 复 杂 的 广告 交易 和 数据 变现 市 场 中 ， 如 果 从 实际 需求 的 角度 来 
看 ， 不 外 乎 有 下 面 三 类 问题 。 

(1) 媒体 如 何 利用 合适 的 广告 产品 更 好 地 变现 ? 媒体 利用 广告 手段 来 变现 ， 要 
兼顾 短期 收益 和 长 期 品牌 价值 提升 的 双重 目的 ， 如 何 合理 地 利用 目 有 销售 渠道 以 及 
各 种 供给 方 的 广告 产品 以 平衡 这 两 方面 的 目的 ， 是 此 问题 的 主要 关注 点 。 同 时 ， 媒 
体 往 往 也 拥有 一 定量 的 数据 ， 将 数据 变现 和 流域 流量 变现 结合 在 一 起 ， 也 是 媒体 需 
要 考虑 的 。 

( 2 ) 广告 主 应 选择 何 种 广告 平台 ,结合 什么 样 的 数据 来 完成 高 效 的 营销 ? 广告 
主 对 于 广告 市 场 的 可 参与 程度 比 媒 体 要 深入 ， 根 据 营 销 活动 阶段 与 目的 人 不同， 需要 
谨 愤 选择 合适 的 需求 方 产品 ， 并 通过 第 一 方 数据 与 第 三 万 数据 的 帮助 来 优化 营销 效 
果 。 

( 3 ) 拥有 数据 的 第 三 方 组 织 如 何 利用 广告 市 场 将 目 己 的 数据 变 成 钱 ? 数据 变现 
的 问题 在 广告 交易 中 得 到 了 相当 程度 的 友 展 ， 不 过 仍然 处 在 比较 初级 的 阶段 。 高 价 
值 数据 的 所 有 者 如 果 想 在 广告 市 场 变现 ， 也 有 深入 参与 和 简单 参与 两 种 方案 ， 而且 
特别 需要 根据 数据 和 广告 主 行业 的 特点 来 加 工 数据 。 

本 章 并 不 会 谈 到 新 的 产品 ， 主 要 是 从 广告 市 场 几 种 主要 角色 的 视角 出 友 ， 帮助 
大 家 直观 地 了 解 如 何 结 合 业务 需求 选择 和 使 用 广告 产品 。 无 论 您 是 用 户 产 品 的 运营 


者 、 在 线 商品 服务 的 提供 者 ， 还 是 其 他 数据 的 拥有 者 ， 了 解 这 些 实战 环节 都 会 对 您 
按照 互联 网 规律 运 言 好 目 己 的 产品 有 帮助 。 


8.1 SLAY 


这 里 所 说 的 媒体 指 的 是 一 切 拥有 流量 的 Web 网 站 、WAP 网 站 、HTML5 网 站 、 
PC 或 移动 应 用 程序 等 。 媒 体 的 变现 渠道 无 非 是 面向 终端 用 尸 和 面向 客户 两 种 ， 而 除 
广告 以 外 的 面向 客户 的 很 多 形式 ( 如 游戏 联运 、 免 流量 下 载 等 ) 的 产品 本 质 与 广告 
是 一 致 的 。 如 果 用 广告 形式 变现 ， 前 提 是 其 交互 界面 可 以 加 入 广告 位 ， 或 者 一 些 内 
容 中 可 以 以 原生 的 方式 混入 付费 内 容 。 除 了 面向 客户 的 广告 变现 ， 姐 体 还 有 其 他 面 
向 用 户 的 变现 手段 ， 利 用 应 用 直接 收费 或 者 内 置 订 阅 或 付费 等 ， 这 些 本 书 不 详细 讨 
ie. 

媒体 利用 广告 市 场 的 目的 无 非 是 获得 收入 。 不 过 在 获得 收入 的 同时 ， 一 定 要 特 
别 注意 广告 产品 给 用 户 体 验 市 来 的 负面 影响 ， 这 一 立场 是 与 三 告 市 场 其 他 参与 方 不 
同 的 。 坚 持 利用 高 质量 的 广告 变现 有 利于 媒体 长 期 保持 和 提升 自己 的 品牌 价值 ， 从 
而 在 优先 销售 的 广告 上 效 得 更 高 的 品牌 溢价 。 不 过 对 大 量 中 小 媒体 而 言 ， 很 难 在 品 
牌 销售 上 找到 切入 点 ， 因 此 重点 关注 的 是 即时 的 单位 流量 变现 能 力 ， 即 RPM。 

媒体 选择 合适 的 广告 产品 主要 考虑 以 下 几 方 面 因 素 : 是 综合 性 媒体 还 是 王 直 媒 
体 ? 媒体 的 品牌 价值 如 何 ? 媒体 的 流量 是 否 足够 大 ”媒体 是 否 有 高 价值 的 数据 ? 根 
据 这 几 方 面 因素 ， 媒 体 在 进行 商业 变现 时 的 决策 逻辑 如 图 8-1 所 示 。 下 面 我 们 将 介绍 
此 决策 过 程 中 的 关键 点 。 
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在 移动 互联 和 广告 实效 化 充分 友 展 的 今天 ， 我 们 建议 媒体 首先 要 考虑 的 变现 方 
式 是 原生 广告 。 如 果 你 的 内 容 中 有 内 容 流 、 列 表 等 适合 做 原生 广告 的 形式 或 者 其 他 
一 些 可 以 商业 化 的 内 容 段落 ， 那 么 束 可 以 考虑 用 原生 的 方式 加 入 付费 内 容 。 原 生 广 
告 的 变现 产品 落地 有 两 种 选择 。 

(1) 如 果 流量 充分 ， 可 以 自行 运营 原生 广告 平台 ( 如 站 内 的 搜索 或 新 闻 应 用 的 
AS) ， 特 别 是 当 站 内 搜索 有 足够 的 流量 时 ， 在 搜索 结果 中 插入 原生 的 付费 结果 是 
最 需要 重视 的 变现 方式 。 这 些 做 法 对 广告 主 的 质量 、 相 天 程度 都 可 以 最 好 地 控制 。 

(2) 如 果 流量 不 充分 ， 那 么 合理 的 方案 是 与 其 他 原生 广告 平台 或 相关 行业 的 搜 
索 广 告 提供 商 合 作 ， 不 过 如 第 7 草 中 介绍 的 ， 原 生 广告 平台 在 产品 和 市 场 藻 地 方面 还 
处 于 比较 初级 的 阶段 ， 实 际 操 作 难 度 会 比较 大 。 

忌 之， 原生 广告 从 趋势 来 看 应 该 给 予 很 高 的 重视 程度 ， 但 对 中 小 媒体 而 言 目前 


还 并 不 是 一 个 可 以 规模 化 变现 的 市 场 。 

如 果 采 用 一 般 广 告 形 式 变现 ， 首 先 要 判断 的 是 媒体 是 否 具 有 比较 有 价值 的 品牌 
属性 。 如 果 是 这 样 ， 首 先 应 该 考虑 通过 合约 的 方式 售卖 品牌 广告 : 在 一 些 强 曝光 的 
广告 位 ( 如 门户 首页 的 特 型 广告 位 ) 上 ， 应 该 采用 CPT 结 算 的 广告 位 合约 ; 而 在 其 他 
一 些 通 用 的 横幅 位 置 上 ， 我 们 推荐 采用 按照 ”CPM 结算 的 展示 量 合 约 ， 而 且 售卖 的 标 
的 应 该 是 定 同 以 后 的 人 群 标签 。 当 然 ， 在 今天 中 国 市 场 中 ， 后 一 种 也 是 以 CPT 万 式 .为 
主 ， 不 过 我 们 仍然 认为 其 有 疝 CPM 定 向 广告 演进 的 动力 。 首 先 考 虑 合约 广告 ， 是 因为 
其 品牌 溢价 的 能 力 ， 这 往往 使 得 它 会 比 一 般 的 竞价 广告 有 更 高 的 RPM 水 平 。 同 时 ， 一 
旦 建立 了 品牌 广告 销售 体系 ， 在 采用 其 他 竞价 广告 时 ， 需 要 特别 注意 是 否 会 对 品牌 
广告 有 制度 和 价格 上 的 冲击 。 

一 般 来 说 ， 为 了 维持 价格 水 平 ， 媒 体 的 合约 广告 售卖 率 不 会 很 高 。 合 约 广告 未 
能 变现 的 剩余 流 量 惑 需 要 采用 其 他 竞价 广告 了 。 在 行业 垂直 媒体 和 综合 媒体 上 ， 竞 
价 广告 的 策略 方式 有 所 不 同 。 如 果 是 汽车 、 房 产 、 电 商 这 类 行业 垩 直 媒 体 ， 考 虑 到 
用 户 明 确 的 意图 和 媒体 价值 的 提升 ， 一 般 来 说 只 能 运营 一 个 行业 垂直 的 广告 网 络 ; 
如 果 是 综合 类 媒体 或 者 视频 、 音 乐 这 类 非 商 业 行业 的 垂直 媒体 ， 那么 可 以 采用 对 行 
业 无 限制 的 水 平 广告 网 络 ， 在 对 广告 质量 高 或 媒体 流量 足够 大 时 ， 可 以 考虑 自 建 广 
告 网 络 ， 否 则 更 便捷 的 方式 是 将 流量 卖 给 市 场 上 较 大 的 广告 网 络 。 

除了 广告 网 络 ， 当 然 还 需要 考虑 新 的 程序 化 交易 模式 。 程 序 化 交易 主要 有 两 种 
选择 : 公开 的 交易 市 场 和 私有 的 交易 市 场 。 这 两 种 市 场 的 选择 逻辑 与 前 面 的 广告 网 
BAW: 当 对 广告 主 类 型 、 质 量 有 较 高 要 求 时 ， 最 好 采用 私有 交易 的 模式 ， 控 制 好 
DSP 的 准 入 门槛 和 制度 ， 特 别 是 当 媒 体 主要 依赖 品牌 广告 时 ， 与 品牌 售卖 政策 有 站 突 
的 行业 性 DsP 要 避免 接 入 ，; 而 当 对 广告 主 质量 没有 特殊 要 求 时 ， 可 以 选择 公开 交易 的 
市 场 。 不 过 ， 程 序 化 交易 其 实 并 非 简单 的 广告 网 络 升级 ， 特 别 是 在 私有 交易 市 场 
中 ， 原 有 的 品牌 售卖 需求 也 可 以 在 更 高 层次 上 得 到 满足 ， 并 且 通 过 竞价 的 模式 提高 
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虑 的 方向 之 一 。 

当 媒 体 同 时 通过 销售 品牌 广告 、 多 个 广告 网 络 、 程 序 化 交易 市 场 等 产品 形式 进 
行 变现 时 ， 可 以 使 用 统一 的 ”SSP 来 分 配 流量 。 不 过 由 于 市 场 上 广告 网 络 数 量 的 减少 
和 程序 化 交易 的 快速 发 展 ，SsP 正 在 变 得 与 广告 交易 市 场 越 来 越 同 质 化 。 


8.1.2 # 寺 方 案 决策 


媒体 在 确定 了 利用 广告 变现 的 产品 形式 和 交易 方式 以 后 ， 还 需要 考虑 这 些 产 品 
需要 的 数据 广 持 ， 而 且 这 一 点 从 肝 种 意义 上 更 加 关键 。 选 择 什 么 广告 变现 方案 需要 
数据 支持 呢 ? 根据 图 8-1 所 示 ， 当 有 CPM 定向 广告 、 自 曹 广 告 网 络 或 私有 交易 存 
在 时 ， 需 要 考虑 这 一 问题 。 

在 按 CPM 售卖 的 定向 展示 量 合约 广告 中 ， 媒 体 需 要 提供 人 群 的 分 类 体系 供 广告 
主 来 购买 ， 这 一 点 往往 需要 数据 支持 ， 否 则 束 只 能 提供 地 域 定向 了 。 由 于 面向 品牌 
Pst, 人口 属 性 定向 比较 重要 ， 因 此 需要 有 相关 的 数据 来 源 ， 或 者 在 没有 直接 数 
据 来 源 时 利用 行为 数据 建立 人 口 属性 预测 的 模型 。 除 了 人 口 属性 ， 根 据 行为 的 兴趣 
分 类 也 经 常用 于 CPM 定向 广告 。 

在 目 营 广 告 网 络 或 私有 程序 化 交易 中 ， 提 供 受 众 标签 的 目的 是 让 广告 主 或 DSP 有 
充分 的 流量 选择 能 力 ， 从 而 提高 整个 市 场 的 流动 性 。 因 此 ， 在 这 两 种 情形 下 ， 媒 体 
也 需要 获得 受众 标签 的 能 力 。 另 外 ， 在 这 两 种 情形 下 ， 由 于 市 场 是 竞价 交易 的 方 
式 ， 标 签 的 粒度 可 以 很 细 ，, 品类 上 也 可 以 很 丰富 ， 其 目的 都 是 为 了 驱动 直接 效果 类 
广告 。 

获得 这 些 人 口 属性 或 兴趣 标签 需要 一 个 数据 管理 和 受众 定向 的 平台 。 如 果 媒 体 
目 身 拥有 的 相关 数据 比较 充分 ， 另 外 又 有 合适 的 产品 技术 团队 ， 出 于 数据 安全 灵活 
性 和 快速 迭代 的 考虑 ， 可 以 目 建 受众 定 同 平台 支持 业务 。 不 过 ， 对 于 大 量 的 中 型 以 


下 媒体 ， 要 么 是 没有 充足 的 相关 数据 ， 要 么 是 不 值得 投入 一 个 专门 的 团队 ， 在 这 种 
情形 下 ， 不 妨 直接 选择 第 三 方 的 DMP 产品 ， 将 数据 委托 其 加 工 ， 同 时 从 DMP 获得 
更 充足 的 通过 第 三 方 数据 加 工 的 、 更 为 精准 的 受众 标签 。 


8.2 广告 主 实战 


广告 主 指 的 是 所 有 以 付费 方式 推广 自己 的 品牌 、 产 品 或 内 容 的 组 织 。 在 互联 网 
的 环境 下 ， 广告 主 的 营销 目的 差异 化 很 大 ， 因 此 也 需要 合理 地 选择 广告 市 场 中 合适 
的 产品 ， 否则 很 有 可 能 与 其 营销 目标 背道而驰 。 

广告 主 对 营销 方式 的 选择 ， 主 要 要 考虑 几 方 面 的 因素 : 是 推广 品牌 还 是 直接 销 
E? 是 否 有 目 己 的 第 一 方 数据 可 以 用 于 营销 ? 对 新 客 和 老 客 的 营销 重点 如 何 ? 根据 
这 几 方 面 的 因素 ， 广 告 主 选择 在 线 广告 产品 时 的 决策 逻辑 如 图 8-2 所 示 。 下 面 我 们 将 
介绍 此 决策 过 程 中 的 关键 点。 
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图 8-2 广告 主 在 线 营 销 决策 过 程 示 意 
影响 广告 主 在 线 营 销 推广 方案 的 第 一 要 素 是 推广 的 目的 。 根 据 品 牌 和 效果 这 两 


大 类 不 同 的 推广 目的 ， 应 该 选择 的 推广 产品 和 策略 也 大 相 径 庭 。 

如 果 推 广 的 目的 为 直接 转化 ， 也 丈 是 直接 效果 广告 ， 那么 先 根据 是 否 利 用 广告 
主 自己 的 第 一 方 数 据 做 渠道 来 进行 选择 。 在 没有 或 不 用 第 一 方 数 据 的 情形 下 ， 可 选 
的 效果 类 推广 渠道 主要 有 搜索 广告、 展示 广告 网 络 这 类 按 CPC 结 算 的 渠道 以 及 垂直 行 
业 入 口 、 返 利 网 这 类 主要 按 CPS 结算 的 渠道 。 一 般 来 说 ， 展 示 广 告 网 络 用 于 效果 营 
销 时 的 效果 ， 与 搜索 广告 相 比 还 有 不 小 的 差距 ， 因 此 主要 还 是 作为 搜索 的 辅助 渠道 
在 预算 充足 、ROI 要 求 不 是 很 严格 的 情况 下 采用 。 当 然 ， 在 搜索 广告 流量 不 容易 获得 
时 ， 投 放 网 络 有 助 于 扩大 人 和 群 的 触及 ， 对 总 体 莒 销 规模 的 扩大 有 帮助 。 当 需要 高 ROI 
的 言 销 渠 道 时 ， 搜 索 广 告 几乎 是 必 不 可 少 的 选择 ， 也 是 效果 营销 领域 最 受 重 视 的 渠 
道 。 不 过 搜索 广告 大 量 关 键 词 选择 、 管 理 和 出 价 是 非常 复杂 的 优化 过 程 ， 除 像 京 
东 、 携 程 这 样 的 大 型 广告 主 之 外 ， 一 般 都 是 通过 专门 的 搜索 引擎 营销 公司 来 投放 ，。 
不 过 ， 搜 索 广 告 一 般 是 按照 。 CPC 结 算 的 ， 在 实际 效果 优化 方面 有 比较 多 的 工作 要 
做 。 除 了 搜索 广告 ， 我 们 要 特别 建议 的 是 : 

对 于 直接 效果 类 推广 需求 ， 需 要 特别 重视 垂直 的 行业 入 口 渠 道 。 

这 里 的 垂直 的 行业 入 口 指 的 是 用 户 在 本 行业 相关 需求 主要 的 流量 来 源 。 例 如 ， 
对 于 应 用 下 载 行业 的 应 用 市 场 和 线 下 预 装 渠道 、 对 于 手 游行 业 的 联运 渠道 、 对 于 淘 
内 电 商 的 聚 划算 渠道 、 对 于 线 下 商户 的 团购 渠道 等 。 实 际 上 ， 这 样 的 垂直 行业 入 口 
是 直接 效果 类 推广 非常 天 键 的 渠道 ， 也 是 首要 的 选择 之 一 ， 因 此 我 们 在 图 8-2 中 重点 
标示 出 来 。 在 返利 网 也 可 以 达到 很 高 的 的 ”ROI 水 平 ， 有 时 甚至 还 会 高 于 搜索 广告 ， 
不 过 由 于 存在 大 量 广告 主 老 用 户 经 过 返利 网 下 单 的 情形 ， 其 实际 效果 ， 特 别 是 在 获 
取 新 客 方面 的 效果 并 不 很 理想 。 

如 果 广 告 有 一 些 有 价值 的 第 一 方 数据 来 源 ， 并 且 有 一 定 的 技术 实力 将 其 加 工 利 
FH, 那么 除了 上 面 的 搜索 广告 、 展 示 广 告 网 络 等 案 道 外 ， 还 可 以 考虑 利用 ”DSP 进行 
精准 的 、 定 制 化 的 人 群 选择 和 投放 。 这 里 应 该 选择 的 DSP 类 型 是 那些 效果 类 的 、 按 照 


CPC 或 者 CPS/CPA 结 算 的 DSP。 在 通过 DSP 投 放 时 ， 对 于 CRM 或 老 客 再 营销 类 需求 可 以 
采用 重 定向 的 策略 ; 对 于 新 客 的 拓展 和 营销 ， 可 以 采用 ”look-alike 的 策略 ; 而 对 
于 那些 有 丰富 单 品 、 流 量 较 充足 的 大 型 在 线 服务 提供 商 来 说 ， 还 可 以 与 ”DSP 进 行 深 
度 的 数据 和 商品 库 对 接 ， 采 用 个 性 化 重 定向 的 方式 在 广告 渠道 商 直 接 展示 动态 的 单 
品 创意 。 利 用 第 一 方 数据 的 精准 定向 ， 从 效果 的 角度 来 看 ， 有 时 可 以 做 到 与 搜索 引 
掌 相 比 肩 的 水 平 ， 不 过 ， 这 样 的 营销 对 于 广告 主 来 说 有 一 定 的 技术 门槛 ， 因 此 在 中 
小 广告 主 中 并 不 十 分 实用 。 

如 果 营 销 的 目的 是 品牌 推广 而 非 直 接 转化 ， 那 么 应 该 考虑 一 些 以 用 户 接触 为 主 
的 合约 广告 产品 。 我 们 在 第 4 章 中 介绍 过 ， 这 类 产品 有 按 CPT 结 算 的 广告 位 合约 和 按 
CPM 结算 的 展示 量 合 约 。 如 果 广 告 宣传 的 是 “ 双 十 一 ”促销 这 样 的 阶段 性 主题 活动 ， 
那么 一 些 强 曝光 位 置 上 的 CPT 广 告 是 重要 的 选择 ; 如 果 是 一 般 性 的 品牌 推广 ， 并 且 结 
合 有 特定 的 人 群 策 略 ， 那 么 采 买 受众 定向 的 CPM 广告 比较 合理 ， 不 过 有 时 ， 广 告 主 确 
定 的 推广 策略 不 一 定 能 为 媒体 提供 的 受众 标签 所 表达 ， 在 这 种 情形 下 ， 可 以 通过 
DSP 按照 自己 的 人 群 划分 在 ADX 中 投放 品牌 广告 。 这 种 以 服务 品牌 广告 为 主 的 DSP 
与 前 面 说 的 效果 类 DSP 有 所 不 同 ， 它 一 般 采 用 CPM 跟 广告 主 结算 ， 并 向 广告 主 收取 一 
定 比 例 的 服务 费用 。 

在 当今 以 产品 技术 为 核心 的 互联 网 广告 市 场 中 ， 广 告 主 的 曹 销 也 不 是 仪 靠 媒体 
采 买 和 价格 谈判 完成 的 。 对 于 大 中 型 的 广告 主 来 说 ， 在 上 面 各 种 营销 产品 的 使 用 过 
程 中 ， 有 两 种 情况 需要 自 建 相关 的 技术 平台 。 首 先 ， 在 使 用 搜索 引擎 营销 时 ， 需 要 
一 个 专门 的 选 词 、 出 价 及 优化 ”ROI 的 产品 ， 尽管 产品 服务 本 身 可 以 从 市 场 上 购买 ， 
但 是 与 广告 主 自身 数据 的 对 接 以 及 行业 相关 策略 的 制定 还 是 需要 大 量 细致 的 产品 技 
术 工 作 。 实 际 上 ， 对 于 大 型 电 商 这 样 的 广告 主 来 说 ，SEM 往 往 是 其 内 部 非常 重要 的 产 
品 。 其 次 ， 当 定制 化 标签 的 投放 量 很 大 时 ， 广 告 主 可 以 自 建 DsP 来 投放 广告 ， 相 比 于 
采 买 其 他 Dsp 的 服务 ， 这 样 做 在 数据 整合 、 效 果 优化 方面 都 会 有 一 定 的 优势 ， 当 然 ， 


如 果 DSP 广 告 量 不 是 很 大 ， 这 样 做 的 必要 性 不 大 。 


8.3 数据 提供 方 实战 


在 线 广告 交易 使 得 那些 拥有 数据 、 但 是 既 不 是 广告 主 又 不 是 媒体 的 组 织 也 可 以 
参与 到 其 中 。 这 种 数据 提供 方 的 例子 有 很 多 。 例 如 ， 手 机 游戏 流量 分 析 产 品 可 以 收 
集 到 与 游戏 相关 的 许多 数据 ; 汽车 牌照 授 号 网 站 可 以 收集 到 近期 可 能 购车 的 非常 精 
准 的 人 群 数据 ; 电信 运营 商 可 以 从 信道 上 得 到 用 户 的 网 站 访问 或 搜索 行为 数据 。 这 
些 数 据 在 谨慎 地 考虑 用 户 隐 私 保护 以 后 是 可 以 服务 于 广告 投放 ， 从 而 获得 收益 的 。 
因此 ， 了 解 通 过 广告 市 场 来 变现 这 些 数据 对 于 各 种 类 型 的 互联 网 企业 都 非常 有 价 
值 。 

一 个 组 织 拥 有 数据 并 不 等 于 数据 值得 变现 。 在 考虑 数据 变现 之 前 ， 需 要 先 对 数 
据 的 价值 有 合理 的 评估 。 评 估 的 基本 万 式 是 “用 户 数 x 平均 用 尸 价 值 ”。 这 里 的 用 户 
数 ， 就 是 该 组 织 在 一 段 时 间 内 能 够 收集 到 数据 的 用 尸 忌 量 ; 而 平均 用 户 价 值 ， 融 是 
单个 用 户 可 以 获得 的 广告 价值 ， 它 主要 被 RPM 水 平 、 单 个 用 户 被 广告 有 效 触 及 的 展示 
次 数 这 两 个 因素 的 影响 。 其 中 RPM 有 反映 了 数据 的 价值 密度 ， 而 广告 触及 次 数 则 需要 通 
过 扩大 媒体 接触 来 实现 。 

如 果 确 认 拥 有 的 数据 有 商业 价值 ， 那 么 束 可 以 考虑 如 何 变 现 了 。 数 据 提供 方 变 
现 决策 的 选择 如 图 8-3 所 示 。 一 般 来 说 ， 对 于 那些 数据 量 有 限 、 不 太 值得 自行 加 工 的 
数据 拥有 者 来 说 ， 可 以 委托 其 他 DMP 加 工 数据 ， 并 将 得 到 的 标签 通过 数据 交易 平台 
在 广告 交易 的 过 程 中 售卖 ， 对 于 大 量 的 中 小 互联 网 服务 提供 商 来 说 ， 这 是 一 个 简单 
易 行 的 数据 变现 方案 。 不 过 ， 选 择 通用 的 DMP 往 往 很 难 发 掘 其 中 独特 的 价值 ， 因 此 如 
果 拥 有 大 量 高 价值 的 数据 ， 还 需要 考虑 其 他 的 变现 万 案 。 

大 量 数 据 通 过 广告 市 场 的 变现 可 以 通过 直接 运营 广告 产品 进行 ， 也 可 以 通过 将 
数据 售卖 给 需求 方 进行 。 天 于 这 一 点 ， 需 要 首先 根据 团队 能 力 、 媒 体 来 源 与 销售 计 


划 等 诸 方面 的 可 行 性 认真 评估 。 当 不 具备 开 友 和 运营 一 个 完整 广告 产品 的 能 力 时 ， 
还 是 应 该 及 用 直接 出 售 数据 的 方案 。 需 要 特别 指出 ， 成 功 运营 一 个 广告 产品 决 不 是 
人 入 单 地 搭建 一 个 广告 系统 束 够 了 ， 而 是 需要 技术 、 产 品 与 商业 模式 上 的 贯通 与 执 
行 。 为 了 变现 数据 运营 广告 产品 ,也 有 两 种 选择 : 当 拥有 的 数据 集中 在 某 个 人 群 履 
mA PREMERA Tl ( 如 汽车 、 医 疗 等 ) 时 ， 因 为 只 有 一 小 部 分 的 媒体 
流量 可 以 被 数据 所 指导 ， 选 择 供给 端的 产品 ( 如 SSP、ADN、ADX 等 ) 是 不 合适 的 ， 
正确 的 方案 是 搭建 一 个 DsP， 并 且 选 择 那些 数据 可 以 履 盖 的 流量 出 价 以 变现 数据 ; 而 
如 果 拥 有 的 数据 是 适用 于 许多 行业 的 ， 而 且 能 够 覆盖 到 相当 多 的 人 群 ， 那 么 也 可 以 
考虑 运营 一 个 广告 网 络 来 变现 数据 。 
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图 8-3 数据 提供 方 变 现 决策 过 程 示意 


8.4 延伸 思考 


1. 对 于 一 个 直接 效果 类 广告 产品 ， 应 如 何 看 待 收 入 、 利 润 、 活 跃 客 己 数 这 些 指 
标 ? 其 中 哪个 指标 最 能 反映 该 产品 的 成 熟 程 度 ? 

2. 对 媒体 而 言 ， 短 期 广告 收入 和 长 期 品牌 价值 仓 在 着 一 定 的 矛盾 。 为 嫁 体 变现 
服务 的 供给 方 广告 平台 应 如 何 看 待 此 问题 ， 并 如 何 优化 媒体 的 长 期 收益 ? 


it 释 


1]. 注 意 ， 这 里 的 API 接口 并 不 是 需求 方 平台 即 _pDsP 使 用 的 实时 竞价 接口 。 






























































.如 门户 网 站 首页 的 一 些 特 型 广告 位 。 
3] .数据 来 源 于 艾 瑞 咨询 ， 参 见 http://news.iresearch.cn/zt/241445.shtml, 
4] .注意 这 是 基于 Google 全 球 市 场 的 统计 ， 这 甚至 接近 了 表 1-1 中 美国 市 场 总 的 在 线 广告 收入 规模 。 
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5] .实时 竞价 将 在 第 6 章 中 介绍 。 
6] .这 里 的 点 击 率 考 虑 了 广告 而 未 考虑 位 置 和 其 他 因素 的 影响 ， 因 此 仪 仪 是 示意 性 的 。 
7] .计算 中 忽略 了 公式 5.2 中 计价 时 多 加 的 _A。 















































8] .数据 来 源 : http://www. eMarketer.com, 
9]. ABA "EEE" (customized ) 一 词 来 表示 对 不 同 客户 的 不 同 结果 , 而 用 “个 性 化 ” ( personalized ) 一 词 来 表示 对 不 同 用 户 的 不 同 结果 。 
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算 广 告 技术 概览 

对 在 线 广告 产品 的 介绍 到 上 一 章 束 告 一 段 藻 了 。 读 者 可 能 会 有 一 种 感受 ， 在 计 
算 广 告 中 ， 无 论 我 们 讨论 的 是 产品 还 是 策略 ， 都 与 技术 的 关系 十 分 密切 。 这 是 因为 
这 个 市 场 本 质 上 是 计算 驱动 的 ， 而 计算 背后 的 能 源 正 是 大 规模 的 数据 。 从 这 一 章 开 
始 ， 我 们 将 从 系统 架构 和 数据 处 理 算法 的 角度 重新 审视 各 种 广告 产品 ， 希望 能 对 需 
要 在 实际 工作 中 具体 搭建 流量 变现 或 数据 变现 系统 的 读者 有 所 帮助 。 

有 很 多 大 数据 驱动 的 产品 ， 束 其 技术 架构 而 言 往往 都 落地 成 个 性 化 系统 ， 即 根 
据 用 户 、 上 下 文 的 一 些 信息 动态 决定 返回 什么 内 容 的 系统 。 计 算 广 告 也 是 一 个 典型 
的 个 性 化 系统 。 不 过 由 于 复杂 的 市 场 交 易 结构 、 多 样 的 数据 来 源 以 及 预算 市 来 的 约 
束 ， 计 算 广 告 是 目前 工业 界 遇 到 的 个 性 化 系统 中 比较 复杂 的 ， 也 是 相对 成 熟 的 。 因 
此 ， 无 论 您 在 从 事 什么 类 型 的 大 数据 业务 ， 我 们 都 建议 您 从 计算 广告 系统 中 了 解 一 
些 关 键 技术 挑战 ， 并 掌握 相应 的 基本 设计 原则 。 

个 性 化 系统 与 搜索 系统 都 是 互联 网 时 代 具 有 挑战 性 的 大 规模 计算 问题 。 由 于 数 
据 规 模 的 要 求 ， 它 们 一 般 都 采用 检索 ( retrieval) 加 排序 ( ranking ) 这 样 类 搜索 
的 系统 架构 ， 因 而 这 两 种 系统 有 非常 多 的 相似 之 处 。 个 性 化 系统 与 搜索 系统 的 主要 
差别 在 于 大 量 的 用 户 特 征 的 使 用 。 由 于 需要 对 每 一 个 用 户 进 行 刻画 ， 这 一 过 程 需要 

用 到 大 规模 的 分 布 式 数据 处 理 平台 ，, 如  Hadoop; 另外 ， 由 于 个 性 化 特征 的 效果 与 
其 生成 的 实时 性 关系 很 大 ， 为 了 尽 可 能 实时 地 利用 线 上 数据 ， 我 们 还 会 用 到 流 计算 
平台 来 加 工 短 时 的 个 性 化 特征 。 将 离线 的 分 布 式 计算 平台 和 在 线 的 流 计 算 平台 相 结 
合 已 经 成 为 这 样 的 系统 生成 个 性 化 特征 的 常用 方案 。 

虽然 计算 广告 系统 是 一 种 典型 的 个 性 化 系统 ， 不 过 由 于 其 业务 的 特殊 性 ， 在 具 


体 模 块 设置 上 会 比 一 般 的 个 性 化 系统 更 加 复杂 。 为 了 方便 后 面 各 广告 产品 的 系统 染 
构 和 算法 介绍 ， 本 章 会 给 出 一 个 示意 性 的 广告 系统 统一 架构 。 时 然 这 一 架构 中 的 模 
块 在 不 同 的 广告 产品 中 有 取舍 和 变形 ， 它 仍然 对 于 从 宏观 上 把 握 广 告 系统 的 全 貌 以 
及 各 种 产品 在 技术 方面 的 内 在 联系 有 一 定 的 价值 。 后 面 章 节 有 天 各 种 广告 产品 的 以 
构 讨 论 都 会 在 这 个 统一 架构 的 基础 上 进行 。 

在 互联 网 时 代 ， 搭 建 这 样 一 个 五 脏 俱 全 的 广告 系统 实际 上 并 没有 看 起 来 那么 复 
杂 。 这 里 最 天 键 的 方法 是 要 充分 利用 开源 社区 的 成 熟 工 具 快 速 搭建 系统 框架 ， 把 底 
层 通 信 、 资 源 分 配 、 集 群 管理 、 跨 语言 调度 等 与 核心 业务 逻辑 无 关 、 但 又 有 较 高 扩 
林 难 度 的 部 分 用 成 熟 方案 来 解决 ， 这 样 广 告 系统 的 开 友 者 融 可 以 重点 天 注 业 务 逻 辑 
和 核心 算法 了 。 在 本 章 中 ， 我 们 也 将 对 选择 哪些 成 熟 的 开源 工具 快速 搭建 广告 系统 


框架 做 一 些 介绍 。 


9.1 ANI Z =A 


计算 广告 是 根据 个 体 用 户 信 息 投 送 个 性 化 内 容 的 典型 系统 之 一 ， 类 似 的 系统 还 
有 推荐 系统 、 个 人 征 信 系统 以 及 宇内 导航 系统 等 。 我 们 上 友 现 ， 大 多 数 以 大 数据 为 核 
心 驱 动力 的 产品 往往 都 需要 一 个 这 样 的 个 性 化 系统 ， 而 不 同 产品 的 个 性 化 系统 之 间 
存在 着 许多 共同 点 。 人 在 介绍 计算 广告 系统 的 染 构 之 前 ， 我 们 先 来 了 解 一 般 的 个 性 化 
系统 是 如 何 构成 的 。 

如 图 9-1 所 示 ， 一 般 的 个 性 化 系统 由 四 个 主体 部 分 构成 : 用 于 实时 响应 请 求 ， 完 
成 决策 的 在 线 投放 (online serving ) 引擎 ; 离线 的 分 布 式 计算 (distributed 
computing ) 数据 处 理 平台 ; 用 于 在 线 实时 反馈 的 流 计算 (stream computing ) 平 
& ; 连接 和 转运 以 上 三 部 分 数据 流 的 数据 高 速 公路 (data highway). 。 这 几 部 分 互 
相配 合 ， 完成 个 性 化 系统 的 数据 挖掘 和 在 线 决 策 任务 。 
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图 9-1 个 性 化 系统 一 般 框架 

这 几 部 分 的 协作 流程 是 : 在 线 投放 系统 的 日 志 接 入 数据 高 速 公路 ， 再 由 数据 高 
速 公路 快速 转运 到 离线 数据 处 理 平 台 和 在 线 流 计 算 平 台 ; 离线 数据 处 理 平台 周期 性 
地 以 批 处 理 方 式 加 工 过 去 一 段 时 间 的 数据 ， 得 到 人 群 标签 和 其 他 模型 参数 ， 和 存放 在 
高 速 缓存 中 ， 供 在 线 投放 系统 决策 时 使 用 ; 与 此 相对 应 ， 在 线 流 计算 平台 则 负责 处 
理 最 近 一 小 段 时 间 的 数据 ， 得 到 | 准 实时 的 用 户 标 签 和 其 他 模型 参数 ， 也 存放 在 高 速 
缓存 中 ， 供 在 线 投放 系统 决策 时 使 用 ， 这 些 是 对 离线 处 理 结果 的 及 时 补充 和 调整 。 
可 以 看 出 ， 整 个 系统 形成 了 一 个 闭环 的 决策 流程 ， 而 这 个 闭环 在 搭建 完成 后 ， 基 本 
依靠 机 器 的 运算 来 运转 ， 人 的 作用 只 是 进行 策略 上 的 调整 和 控制 。 实 践 证 明 ， 这 样 
的 闭环 系统 是 有 效 全 量 利用 大 数据 的 关键 。 

还 有 一 点 需要 强调 ， 由 于 个 性 化 需要 的 是 对 用 户 尽 可 能 准确 的 理解 ， 因 此 除了 
个 性 化 系统 本 身 的 日 志 ， 一 般 都 还 会 用 到 其 他 的 业务 线 数 据 或 采 买 得 到 的 数据 ， 这 
些 数据 都 会 进入 数据 高 速 公路 以 及 后 续 的 加 工 流程 中 。 因 此 ， 在 同一 个 企业 中 ,我 
们 会 在 不 同 的 业务 之 间 尽 可 能 共享 离线 和 在 线 的 两 个 计算 平台 以 及 所 有 的 用 户 行 为 
数据 。 

各 种 个 性 化 系统 之 间 有 上 述 的 共性 ， 不 过 由 于 其 数据 来 源 、 产 品 形态 、 优 化 目 


标的 不 同 ， 系 统 染 构 的 细节 也 会 呈现 出 很 大 的 差别 。 我 们 以 最 典型 的 两 种 个 性 化 系 
统 ， 即 计算 广告 和 个 性 化 推荐 以 及 不 需要 深度 个 性 化 的 搜索 系统 为 例 ， 比 较 这 几 个 
Web-Scale 问 题 在 不 同方 面 的 区 别 ， 如 表 9-1 所 示 。 而 这 些 区 别 ， 是 决定 它们 系统 架 
构 不 同 的 关键 原因 。 

表 9-1 Web-Scale 技术 问题 比较 
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广告 系统 的 优化 目标 是 提高 广告 产品 的 利润 ， 也 就 是 第 2 章 中 提 到 的 计算 广告 
核心 挑战 : 
T 
Qi... T = max 2 rii ui, Ci) — Glai, ui, ci)] 
(9.1) 
= max DI Qi, Ui, Ci) + v(aj,u;) — q(ai, ui, ci) } 
Ar 告 系统 ， 都 是 为 了 优化 上 面 的 目标 而 设计 的 。 对 应 于 上 


一 三 的 个 性 化 系统 一 般 框 染 ， 在 广告 系统 中 ， 每 次 展示 的 r 是 由 在 线 的 投放 引擎 来 决 
策 的 ， 而 离线 数据 处 理 平台 和 流 计算 平台 所 做 的 都 是 为 了 准备 a,，u,，c， 这 三 个 变 


量 或 其 组 合 的 一 些 特征 。 

在 不 同 的 广告 产品 中 ， 上 述 优化 目标 会 具体 表现 为 不 同 的 形式 ， 并 且 有 时 会 有 
额外 的 约束 。 表 9- 2 中 列 出 了 主要 广告 产品 中 优化 目标 各 部 分 的 具体 表达 。 

在 展示 量 合约 的 GD 系统 中 ， 只 要 各 合约 达成 ， 系 统 的 收益 是 确定 的 ， 因 此 这 
一 系统 的 主要 优化 在 于 满足 各 合约 带 来 的 约束 ， 而 成 本 由 于 是 媒体 静态 产生 ， 与 广 
告 优化 过 程 无 关 ， 可 以 认为 是 常数 ; ADN 需 要 估计 点 击 率 h (a,u,c) ， 并 与 广告 
主 出 的 点 击 单价 bid.. (a) 相 乘 得 到 期 望 收入 ， 而 成 本 是 与 收入 成 正比 的 媒体 分 
成 ; ADX 直接 用 广告 主 出 的 展示 单价 bid, (a) 作为 期 望 收入 ， 成 本 也 是 与 收入 成 
正比 的 媒体 分 成 ; 只 有 在 DSR, atu (a , u, c), AHMA v(a,u) 和 
成 本 q(a,u,c) 都 可 能 是 需要 预 估 和 优化 的 ， 因 此 算法 的 挑战 较 大 。 

表 9-2 主要 广告 产品 优化 目标 分 解 





广告 投放 约束 
GD 合约 的 展示 量 要 求 
ADN La, U,C bidcpc(a) xr I 
ADX bidcpMlo) 市 宽 、 服务 成 i 
DSP i(a, tu, C v(a, u) g(a, u, c) EIE 


9.3 By SARK 


根据 广告 的 核心 优化 问题 和 上 面 个 性 化 系统 的 一 般 框架 ,我们 抽象 出 一 个 完整 
的 广告 系统 可 能 具备 的 各 个 模块 以 及 这 些 模块 之 间 的 协作 关系 ， 用 图 9-2 中 的 架构 框 
架 来 描述 。 这 一 染 构 图 将 是 后 面 讨论 各 种 广告 产品 系统 结构 的 统一 基础 。 我 们 在 下 
面 分 几 个 部 分 介绍 该 架构 中 的 功能 模块 。 


需要 说 明 ， 并 不 是 每 一 个 广告 系统 都 需要 以 上 所 有 的 功能 模块 。 这 样 的 架构 图 
和 模块 划分 是 为 了 方便 本 书后 面 在 各 种 广告 系统 之 间 进 行 染 构 上 的 对 比 。 另 外 ， 这 
样 的 架构 主要 是 根据 竞价 广告 系统 的 骨架 来 进行 的 ， 对 于 其 他 类 型 的 广告 系统 ， 虽 
然 概 念 上 也 可 以 套用 ， 但 是 术语 和 习惯 表达 上 会 有 一 些 不 同 。 大 家 要 注意 的 最 关键 
之 处 是 ， 在 一 个 完整 的 广告 系统 架构 中 ， 数 据 的 记录 、 交 易 、 流 转 、 建 模 和 使 用 ， 
因为 这 些 是 广告 系统 最 核心 的 驱动 力 ， 也 从 本 质 上 决定 了 广告 产品 的 变现 能 力 和 利 
润 空间 。 因 此 ,我们 将 广告 系统 归于 大 数据 产品 之 列 。 

在 实践 中 ， 广 告 系 统 的 建立 应 该 是 循序 渐进 的 。 一 般 来 说 ， 对 一 个 刚 起 步 的 广 
告 产品 ,有 广告 投放 机 和 相应 的 日 志 系统 ， 实 现 简 单 的 定向 投放 逻辑 ， 束 可 以 开始 
使 用 。 随 着 对 广告 效果 深入 优化 的 需求 ， 需 要 建立 起 完整 的 广告 排序 和 用 户 行 为 反 
馈 模 型 ; 而 当中 小 广告 主 大 量 增加 时 ， 融 需要 实现 广告 的 倒 排 兹 3 引 和 相应 的 检索 功 
能 。 因 此 ， 在 一 个 新 的 广告 产品 开始 运营 和 逐步 完善 的 过 程 中 ， 要 特别 注意 根据 当 
前 阶段 的 实际 需求 决定 哪些 模块 是 必要 的 ， 哪 些 可 以 暂时 省 略 ， 以 避免 过 度 设计 和 
不 必要 的 投入 。 


9.3.1 J Signs | 


广告 系统 中 必 不 可 少 的 部 分 是 一 个 实时 响应 广告 请 求 ， 并 决策 广告 的 投放 引 
和 擎 ， 这 与 我 们 在 个 性 化 系统 框 絮 中 介绍 的 个 性 化 投放 引 警 一致。 一般 来 况 ， 广 告 系 
统 的 投放 引擎 采用 类 搜索 的 架构 ， 即 检索 加 排序 的 两 阶段 决策 过 程 。 另 外 ,广告 投 
放 引 擎 还 有 一 个 独特 模块 ， 融 是 要 从 全 局 优化 的 角度 对 整体 收益 进行 管理 。 广 告 投 
放 引 掌 主要 有 以 下 几 个 模块 。 
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图 9-2 在 线 广告 系统 一 般 性 架构 示意 

(1) 广告 投放 机 (ad ”server ) 。 这 是 接受 广告 前 端 Web 服 务 器 发 来 的 请 求 ， 
完成 广告 投放 决策 并 返回 最 后 页 面 片段 的 主 逻 辑 。 广 告 投 放 机 的 主要 任务 是 与 其 他 
各 个 功能 模块 打交道 ， 并 将 它们 串联 起 来 完成 在 线 广告 投放 决策 。 一 般 来 说 ， 为 了 
扩展 性 的 考虑 ， 我 们 都 采用 类 搜索 的 投放 机 织 构 ， 即 先 通过 倒 排 索引 从 大 量 的 广告 
候选 中 得 到 少量 符合 条 件 的 或 相关 的 候选 ， 再 在 这 个 小 的 候选 集 上 应 用 复杂 而 精确 
的 排序 方法 找到 综合 收益 最 高 的 若干 个 广告 。 对 广告 投放 机 来 说， 最 重要 的 指标 是 
每 秒 查 询 数 (Query per Second , QPS ) 以 及 广告 决策 的 延迟 ( latency ) 。 







(2 ) 广告 检索 ( ad retrieval). 。 这 部 分 的 主要 功能 在线 时 根据 用 户 标签 
( user attributes ) 与 页 面 标签 ( page attributes ) 从 广告 索引 (ad 

index ) 中 碍 找 符 合 条 件 的 广告 候选 。 实 际 上 ， 倒 排 索 引 近 术 的 重要 性 体现 在 所 有 
web 规模 的 技术 挑战 上 ， 也 同样 是 大 规模 计算 广告 系统 的 基础 。 广 告 检索 得 到 的 候选 
将 被 送 入 广告 排序 模块 。 

(3) 广告 排序 (ad ranking). 。 这 部 分 是 在 线 高 效 地 计算 广告 的 ecPM， 并进 
行 排序 的 模块 。eCPM ”的 计算 主要 依赖 于 点 击 率 估计 ， 这 需要 用 到 离线 计算 得 到 的 
CTR 模 型 和 特征 (CTR Model&Features ) ， 有 时 还 会 用 到 ) 流 计算 得 到 的 实时 点 击 率 
特征 (real-time — features). 。 在 需要 估计 点 击 价值 的 广告 产品 ( 如 按 效 果 结 算 
的 DSP ) 中 ， 还 需要 一 个 点 击 价值 估计 的 模型 。 

(4 ) 收益 管理 (yield management), 。 我 们 用 这 部 分 来 统一 代表 在 各 种 广告 
系统 中 将 局 部 广告 排序 的 结果 进一步 调整 ， 以 全 局 收益 最 优 为 目的 做 调整 的 功能 ， 
如 GD 系统 中 的 在 线 分 配 、DSP ”中 的 出 价 策略 等 。 这 部 分 一 般 都 需要 用 到 离线 计算 好 
的 某 种 分 配 计划 来 完成 在 线 时 的 决策 。 

(5 ) 广告 请 求 接口 。 实 际 系统 中 ， 根 据 前 新 接口 形式 的 不 同 ， 广 告 请 求 可 能 来 
自 于 基于 HTTP 的 “Web 服务器， 也 可 能 来 自 于 移动 App 内 的 ”SDK， 或 者 其 他 类 型 的 
API 接 口 。 不 论 哪 种 接口 ， 只 要 能 够 提供 用 户 唯 一 的 身份 标识 ID 以 及 其 他 一 些 上 下 文 
信息 ， 从 逻辑 上 讲 与 标准 的 HTTP 请 求 惑 没有 本 质 区 别 ， 因 此 我 们 都 用 Web 服务 器 来 
表示 。 

程序 化 交易 市 场 中 的 广告 请 求 接 口 与 上 面 有 所 不 同 ， 它 包括 作为 需求 方 时 使 用 
的 RTBS 以 及 作为 供给 方 时 使 用 的 RTBD。 这 一 接口 可 以 采用 IAB 建 议 的 OpenRTB 协 
议 或 者 其 他 主要 ADX 规 定 的 接口 形式 。 

(6) 定制 化 用 户 划 分 ( customized audience segmentation). 。 由 于 广告 

是 媒体 著 广 告 主 完 成 用 户 接触 ， 那 么 有 时 需要 根据 广告 主 的 逻辑 来 划分 用 户 群 ， 这 


部 分 也 是 具有 鲜明 广告 特色 的 模块 。 这 个 部 分 措 的 是 从 广告 主 处 收集 用 户 信 息 的 产 
品 接 口 ， 而 收集 到 的 数据 如 果 需 要 较 复 杂 的 加 工 ， 也 将 经 过 数据 高 速 公 路 导入 受众 
定向 模块 来 完成 。 





数据 高 速 公 路 完成 的 功能 是 将 在 线 投放 的 数据 准 实时 传输 到 离线 分 布 式 计算 平 
台 与 流 计算 平台 上 ， 供 后 续 处 理 和 建 模 使 用 ， 它 非常 类 似 于 人 体 的 循环 系统 。 由 于 
在 进行 受众 定向 建 模 时 需要 用 到 广告 系统 以 外 的 其 他 用 户 产 品 日 志 或 者 第 三 方 提供 
的 数据 ， 因 此 ， 数 据 高 速 公路 也 担负 着 收集 这 些 数据 源 的 任务 。 


9.3.3 离线 类 ht 


计算 广告 最 具 挑 战 的 算法 问题 大 多 都 集中 企 离线 数据 处 理 的 部 分 。 离 线 数据 处 
理 有 两 个 输出 目标 : 一 是 统计 日 志 得 到 报表 、dashboard 等 ， 供 决策 人 进行 决策 时 
作为 参考 ; 二 是 利用 数据 挖掘 、 机 器 学 习 近 术 进行 受众 定向 、 扣 击 率 预 估 、 分 配 策 
略 规划 等 ， 为 在 线 的 机 器 决策 提供 文 持 。 为 了 对 大 规模 数据 进行 分 布 式 的 处 理 加 
工 ， 我 们 一 般 会 选用 Hadoop 这 样 的 分 布 式 存储 和 MapReduce 计 算 框 架 。 离 线 数据 处 
理 有 下 面 儿 个 主要 模块 。 

(1) 用 户 会 话 日 志 生 成 。 从 各 个 渠道 收集 的 日 志 需 要 先 整理 成 以 用 户 ID 为 键 的 
统一 存储 格式 ， 这 样 的 日 志 称 为 用 户 会 话 日 志 (session 1og ) 。 这 样 整理 的 目的 
是 为 了 让 后 续 的 受众 定向 过 程 更 加 简单 高 效 电 。 

( 2 ) 行为 定向 (behaviorial ^ targeting). 。 这 部 分 功能 完成 挖掘 用 户 日 
志 ， 根据 日 志 中 的 行为 给 用 户 打 上 结构 化 标签 库 ( structural label base) 中 的 
某 些 标 签 ， 并 将 结果 和 存储 在 用 户 标 签 的 在 线 缓存 中 ， 供 广告 投放 机 使 用 。 这 部 分 是 
计算 广告 的 原材料 加 工厂 ， 也 因此 在 整个 系统 中 具有 非常 关键 的 地 位 。 

(3) 上 下 文 定向 (contextual — targeting). 。 这 部 分 包括 半 在 线 页 面 抓 取 


(near-Line page Fetcher ) 和 上 下 文 页 面 标签 的 缓 仓 ， 与 行为 定向 互相 配合 , 

负责 给 上 下 文 页 面 打上 标签 ， 用 于 在 线 的 广告 投放 中 。 这 里 的 抓 取 系统 比 搜索 系统 
要 简单 ， 但 也 有 不 太一 样 的 需求 ， 后 面 会 详细 介绍 。 

(4) ARRE (click modeling ) 。 它 的 功能 是 在 分 布 式 计算 平台 上 训练 
得 到 点 击 率 的 模型 参数 和 相应 特征 (click ”model&features ) ， 加 载 到 缓存 中 供 
线 上 投放 系统 决策 时 使 用 。 

(5) 分 配 规划 ( planning ) 。 这 部 分 为 在 线 的 收益 管理 模块 提供 服务 ， 它 根 
据 广 告 系统 全 局 优化 的 具体 需求 ， 利 用 离线 日 志 数 据 进 行规 划 ， 得 到 适合 线 上 执行 
的 分 配方 案 ( allocation plan), 

( 6) 商业 智能 ( business intelligence , BI) 系统 。 这 部 分 包括 
Extract-Transform-Load ( ETL ) 过 程 、dashboard 和 cube , 这些 是 所 有 以 人 
为 最 终 接口 的 数据 处 理 和 分 析 流 程 的 总 括 ， 担 负 着 对 外 信息 交流 的 任务 。 由 于 实际 
的 广告 运营 不 可 能 完全 通过 机 器 的 决策 来 进行 ， 其 间 必 然 需要 有 经 验 的 运营 者 根据 
数据 反馈 对 一 些 系统 设置 及 时 调整 。 因 此 ， 实 现 一 个 功能 强大 、 交 互 便利 的 BI 系统 
是 非常 重要 的 。 

(7 ) 广告 管理 系统 。 这 部 分 是 广告 操作 者 ， 即 客户 执行 (Account Execute , 
AE) 与 广告 系统 的 接口 。AE 通 过 广告 管理 系统 定制 和 调整 广告 投放 ， 并 且 与 数据 仓 
库 交 互 ， 获 得 投放 统计 数据 以 文 持 决策 。 一 般 来 说 ， 广 告 系 统 中 只 有 这 部 分 是 面向 
用 户 的 产品 。 根 据 对 操作 对 象 开 放 程 度 的 不 同 ， 这 一 系统 有 时 又 有 开放 自助 的 需 
求 ， 在 这 种 情况 下 ， 还 需要 包含 相应 的 财务 结算 功能 。 对 这 部 分 ， 读 者 可 以 从 很 多 
目 助 式 广告 产品 中 看 到 ， 我 们 在 第 3 草 中 已 经 进行 了 简单 介绍 。 


9.3.4 fr£x£ ht 


在 线 数据 处 理 基本 上 可 以 认为 是 离线 数据 处 理 的 镜像 功能 ， 它 是 为 了 满足 广告 


系统 对 实时 数据 反馈 的 要 求 ， 解 决 那些 离线 分 布 式 计算 平台 无 法 快速 响应 的 计算 问 
题 。 为 了 组 织 下 面 一 些 在 线 时 前 后 有 依赖 关系 的 数据 流 加 工 过 程 ， 我 们 经 常 选用 流 
式 管 理 平台 作为 基础 设施 。 在 线 数据 处 理 主要 包括 以 下 模块 。 

(1) fes EE ( anti-spam) 。 实 时 判断 流量 来 源 中 是 否 有 作弊 流量 ， 并 且 
将 这 部 分 流量 从 后 续 的 计价 和 统计 中 去 除 掉 ， 是 广告 业务 非常 重要 的 部 分 。 此 模块 
是 所 有 后 续 在 线 数 据 处 理 必须 经 过 的 前 置 模 块 。 

(2 ) 计 费 (billing). 。 这 部 分 同样 是 计算 广告 关键 的 业务 功能 之 一 。 对 于 那 
些 经 过 扣 费 预算 耗 尽 的 广告 ， 系 统 必须 马上 通知 广告 索引 系统 将 其 下 线 。 当 然 ， 扣 
费 也 必须 在 扣除 了 作弊 流量 的 基础 上 进行 。 

(3) 在 线 行为 反馈 ， 包括 实时 受众 定向 (real-time targeting ) 和 实时 点 
击 反 馈 (realtime click feedback) 等 部 分 。 这 部 分 是 将 短 时 内 上 友 生 的 用 户 行为 
和 广告 日 志 及 时 地 加 工 成 实时 用 户 标 签 以 及 实时 的 点 击 率 模型 特征 。 对 于 在 线 广告 
系统 ， 这 部 分 对 于 效果 提升 的 意义 重大 : 在 很 多 情形 下 ， 把 系统 信息 反馈 调整 做 得 
更 快 比 把 模型 预测 做 得 更 准确 效果 更 加 显著 。 

(4) 实时 索引 (real-time indexing). 。 这 部 分 的 主要 功能 是 实时 接受 广告 
投放 数据 ， 建 立 倒 排 索 3|。 广 告 的 索引 由 于 涉及 预算 调整 等 商业 环节 ， 因 此 必须 在 
投放 管理 者 调整 以 后 非常 快速 地 在 线 上 广告 索引 中 生效 。 


9.4 计算 广告 系统 主要 技术 


了 解 了 计算 广告 的 优化 目标 和 系统 架构 ， 我 们 再 来 看 看 这 一 系统 会 用 到 哪些 天 
键 的 技术 。 实 际 上 ， 上 一 节 介绍 的 广告 系统 架构 也 是 由 这 些 技术 问题 决定 的 ， 而 这 
些 也 给 我 们 提示 了 实践 中 需要 重点 关注 并 优化 的 方向 。 

从 算法 优化 的 角度 看 ， 主 要 有 下 面 的 一 些 问题 ， 解 决 这 些 问 题 需要 广泛 用 到 机 
器 学 习 、 数 据 挖掘 等 一 些 相关 学 科 的 技术 。 


(1) 公式 2.2 中 的 特征 提取 ， 即 对 ( a，u ,< ) 打 标 签 以 方便 后 续 建 模 和 市 场 
售卖 的 问题 ， 是 计算 广告 中 非常 核心 的 受众 定向 问题 ( 参见 第 12 章 ) 。 

(2) 如 果 不 考 虑 全 局 最 优 ， 计 算 广 告 系统 主要 靠 eCPM 估 计 ， 特 别 是 点 击 率 预测 
( 参见 13 .5 节 ) 来 完成 每 一 次 展示 时 的 局 部 优化 。 

( 3) 如 果 考 虑 到 量 的 约束 和 投放 时 即时 决策 的 要 求 ， 则 产生 了 在 线 分 配 的 问题 
( 参见 11.3 节 ) 。 

(4) 为 了 在 多 方 博 弃 的 市 场 中 达到 动态 平衡 时 的 收益 最 大 化 ， 则 需要 对 市 场 的 
机 制 设计 (mechanism design) (参见 5.2 节 ) 深入 研究 ， 进 而 确定 合理 的 定价 策 
RE. 

(5) 为 了 更 全 面 地 采样 整个 (a.u, c) 的 空间 以 便 更 准确 地 估计 点击 率 ， 需 
要 用 到 强化 学 习 ( reinforcement ”learning ) 中 的 探索 与 利用 ( explore and 
exploit , E&E ) (参见 13.6 节 ) 方法 。 

( 6) 在 实时 况 价 快速 友 展 的 今天 ， 个 性 化 推荐 (personalized 
recommendation ) 技术 也 被 广泛 使 用 在 效果 类 DSP 的 个 性 化 重 定向 中 ( 参见 14.2 
es 

从 系统 架构 的 角度 看 ， 大 规模 广告 决策 和 投放 有 如 下 一 些 特点 : 首先 是 服务 压 
力 大 ， 这 是 由 于 广告 的 投放 量 往 往 数 倍 于 页 面 浏览 的 PV， 这 使 得 广告 成 为 互联 网 流 
量规 模 最 大 的 产品 之 一 ; 其 次 ， 因 为 用 户 对 广告 产品 接受 是 被 动 的 ， 广 告 展 现 延迟 
的 增加 往往 会 市 来 广告 效果 的 显著 下 降 ， 因 此 广告 系统 的 决策 延迟 是 非常 关键 的 指 
im; 从 另 一 方面 看 ， 也 正 因为 广告 是 被 动 的 用 户 产 品 ， 其 决策 结果 的 逻辑 性 不 直 
接 ， 因 此 广告 系统 企 用 户 标签 的 数据 一 致 性 方面 要 求 是 比较 低 的 ， 也 往往 并 不 需要 
持久 化 的 存储 ， 这 为 系统 设计 提供 了 一 定 的 灵活 性 。 计 算 广告 在 系统 染 构 方面 涉及 
以 下 一 些 技术 问题 。 

( 1 ) 由 于 广告 主 的 预算 、 定 向 条 件 等 信息 在 设置 后 需要 快速 在 线 上 生效 ， 需 要 


用 实时 索引 技术 服务 于 广告 候选 的 检索 。 

( 2) 需要 用 NosQL 数 据 库 为 投放 时 提供 用 户 、 上 上 下文 标 釜 和 其 他 特征 。 

( 3) 广泛 使 用 Hadoop 这 样 的 MapReduce 分 布 式 计 算 平台 进行 大 规模 数据 挖掘 和 
建 模 ， 也 用 到 流 计 算 平台 实现 短 时 用 户 行为 和 点 击 反馈 。 

(4) 在 广告 交易 市 场 中 实现 高 并 友 、 快 速 响应 的 实时 竞价 接口 ， 这 是 一 项 广告 
中 用 到 的 独特 技术 。 

上 述 这 些 技 术 与 大 数据 、 分 布 式 计算 等 岛 域 中 的 一 些 通用 技术 有 紧密 的 联系 ， 
但 也 有 很 多 结合 广告 产品 特点 的 独特 需求 。 我 们 将 会 在 介绍 具体 的 广告 产品 时 ， 结 
合 相 应 的 上 下 文具 体 讨论 。 

有 关 这 些 技 术 需 要 了 解 的 一 些 基础 知识 将 人 在下 一 章 简 要 介绍 。 当 然 ， 本 书 并 不 
是 专门 讨论 机 器 学 习 或 信息 检索 的 教程 ， 因 此 大 家 不 要 期 望 在 这 里 能 系统 地 学 习 到 
这 些 领 域 的 知识 。 我 们 的 目标 是 从 商业 的 需求 出 友 ， 解 剖 问 题 的 本 质 ， 并 给 出 代表 
性 的 解决 万 案 。 同 时 ， 在 用 到 其 他 工业 界 已 经 成 熟 的 技术 时 ， 会 尽量 给 出 建议 的 参 
考 方案 ， 以 方便 大 家 进一步 深入 了 解 。 


9.5 da I ESEELPEN Bm 
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上 面 的 广告 系统 染 构 模块 众多 、 交 互 复 杂 ， 从 头 搭 建 并 不 容易 。 在 大 型 互联 网 
公司 中 ， 这 样 的 广告 系统 可 以 精 雕 细 琢 ， 其 中 的 很 多 模块 也 都 可 以 进行 专门 开 友 。 
不 过 ， 对 于 初创 型 企业 和 变现 业务 方向 尚 需 探索 的 企业 来 说 ， 需 要 根据 最 小 值 原型 
(Minimum Value Prototype , MVP ) 的 原则 ， 低 成 本 、 短 平 快 地 搭建 系统 ， 然 后 
在 实际 业务 中 进行 快速 迭代 。 幸 运 的 是 ， 开 源 社区 为 搭建 广告 系统 提供 了 很 多 不 错 
的 工具 ， 利 用 这 些 工 具 可 以 相当 方便 地 搭建 起 一 个 广告 系统 基础 骨架 。 一 般 来 说 ， 
我 们 可 以 利用 成 熟 开 源 工具 解决 底层 通信 、 数 据 传输 、 负 载 分 配 等 基础 问题 ， 从 而 
将 精力 重点 放 在 与 业务 逻辑 相 天 的 开 友 上 。 


图 9-3 标 示 出 了 计算 广告 系统 中 经 常用 到 的 一 些 开源 工具 ， 为 了 方便 读者 在 实际 
工作 中 的 需要 ， 我 们 将 简要 介绍 一 些 主 要 工具 在 广告 系统 中 的 用 法 。 


9.5.1 Web 服务 器 Nginx 


NGINX 


KJEMI webik ENNE. AT) ERRESA., RER 
的 性 能 要 求 ，Nginx ( http://www.nginx.org ) 在 多 数 情 形 下 都 是 广告 系统 首选 的 
Web 服务 器 解决 方案 。 

Nginx 是 一 款 开 源 服务 器 软件 ， 兼 有 HTTP 服务 器 和 反 向 代理 服务 器 的 功能 。 
其 主要 特点 在 于 高 性 能 、 高 并 帮 和 低 内 存 消耗 ， 并 且 具 有 负载 均衡 、 高 速 缓 仓 、 访 
问 控 制 、 市 宽 控 制 以 及 高 效 整 合 各 种 应 用 的 能 力 ， 这 些 特 性 使 得 Nginx 非常 适合 
计算 广告 这 种 并 上 友 很 高 的 互联 网 服务 。 

Nginx 还 提供 了 fastCcGI 这 一 与 各 种 编程 语言 乙 间 的 通信 接口 ， 开 上 友 者 可 以 很 方 
便 地 将 服务 器 的 功能 逻辑 用 fastCGI 插件 的 形式 实现 ， 而 无 需 关注 响应 HTTP 请 
求 的 细节 。 在 广告 系统 中 ， 用 Nginx 作 为 前 器 Web 服 务 器 ， 而 将 广告 投放 机 的 功能 
C/C++ 语言 实现 成 fastc6I ”插件 ， 是 一 个 开发 成 本 较 低 、 性 能 又 很 不 错 的 方案 。 实 
际 上 ， 这 一 方案 已 经 实现 了 一 个 基本 的 广告 投放 机 ， 从 事 最 简单 的 广告 投放 业务 ， 
而 其 他 模块 和 功能 则 可 以 根据 需求 逐步 开 友 。 

AX Nginx 更 详细 的 介绍 和 使 用 方法 可 以 参考 参考 文献 【78]。 其 他 的 相关 开 
源 工 具 还 有 Apache ( http://httpd.apache.org ) 等 。 
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图 9-3 计算 广告 系统 用 到 的 开源 工具 示意 


9.5.2 分 置 和 集群 管 H ZooKeeper 





由 于 广告 系统 的 流量 很 大 ， 单 台 广告 投放 机 往往 不 能 满足 需要 。 人 在 使 用 多 台 服 


务 器 的 时 候 ， 会 遇 到 很 多 诸如 配置 文件 更 新 、 集 群 上 下 线 管理 等 分 布 式 环境 下 的 同 
步 问 题 。ZooKeeper ( http://zookeeper.apache.org ) 是 解决 这 些 问 题 非常 有 用 
的 开源 工具 。 

ZooKeeper 是 为 分 布 式 应 用 建立 更 高 层次 的 同步 (synchronization), BOB 
管理 ( con-figuration maintenance), 、 群 组 ( groups ) 以 及 名 称 服务 

(naming) 的 通用 工具 。 它 的 基础 原理 是 参考 文献 [49] 中 的 Paxos 算法 ， 而 这 
一 算法 最 早 的 工业 界 应 用 是 Google 开发 的 Chubbym。 在 编程 上 ，zookeeper 的 设 
计 很 简单 。 所 使 用 的 数据 模型 非常 类 似 于 文件 系统 的 目录 树 结构 ， 简 单 来 说 ， 有 所 
类 似 于 Windows 中 注册 表 的 结构 ， 有 名 称 、 树 节点 、 键 / 值 对 等 ， 可 以 看 作 一 个 树 形 
结构 的 数据 库 ， 可 以 分 布 在 不 同 的 机 器 上 做 名 称 管理 。 由 于 ZooKeeper 并 不 传递 计 
算数 据 而 是 传递 节点 的 运行 状态 ， 所 以 运行 负载 很 低 。 

对 广告 投放 机 进行 集群 管理 是 Zookeeper 在 广告 系统 中 的 典型 应 用 之 一 : 由 
于 某 台 服务 器 宕 机 或 者 新 机 器 上 线 ，Nginx 的 负载 均衡 方案 需要 及 时 作出 调整 。 显 
然 ， 人 工地 维护 响应 时 间 较 长 ， 不 可 避免 地 会 带 来 一 些 流量 上 的 损失 。 利 用 
ZooKeeper 的 ”Ephemeral 类 型 节点 可 以 很 方便 地 实现 此 功能 ， 这 方面 的 参考 资料 
很 多 ， 本 书 不 具体 介绍 。 

由 于 在 广泛 使 用 的 Hadoop、HBbase、Storm、Flume 等 开源 产品 中 都 需要 用 到 
ZooKeeper 进 行 分 布 式 同步 ， 如 果 把 上 述 开源 产品 看 作 各 种 小 动物 ，ZooKeeper 这 
一 命名 可 以 说 非常 形象 。 有 关 ZzooKeeper 更 详细 的 介绍 和 使 用 方法 可 以 参考 参考 文 
献 [44]。 


大 多 数 广告 业务 在 初始 运 言 阶段 并 不 见得 需要 一 个 真正 的 倒 排 检 索引 擎 ， 不 过 
当 广 告 业务 开始 面向 长 尾 广 告 主 ， 广 告 库 规模 较 大 时 ， 采 用 “ 倒 排 检 索 ” 加 “ 排 
序 ” 这 样 的 两 段 式 决策 过 程 是 必要 的 ( 参见 10.1.1 715). Am, 实现 一 个 功能 
面 、 效 率 较 高 的 倒 排 索 引 并 不 是 一 件 简 单 的 事 ， 并 且 由 于 其 与 核心 业务 逻辑 关系 并 
不 大 ， 也 可 以 用 开源 方案 来 实现 。 

在 开源 工具 中 ，Lucene ( http://lucene.apache.org ) 是 比较 常用 的 基于 
]ava 的 全 文 检索 工具 包 。Lucene 并 不 是 一 个 完整 的 搜索 引擎 ， 但 是 针对 计算 广告 系 
统 的 需要 ， 它 可 以 方便 地 实现 全 文 索引 和 检索 功能 。Lucene ”能 够 为 文本 类 型 的 数 
据 建 立 达 引 ， 其 主要 功能 是 蔡 文 档 中 的 每 个 关键 词 建立 达 引 。 另 外 ，Lucene 还 提供 
一 组 解读 、 过 滤 、 分 析 文 档 ， 编 拉 儿 0 使 用 索引 的 API。 我 们 选用 Lucene， 除 了 它 的 
高 效 和 简单 外 ， 还 因为 它 允 许 用 户 对 其 中 的 关键 环节 目 定义 功能 逻辑 。 不 过 一 些 特 
殊 的 检索 算法 ， 如 第 13 章 中 要 介绍 的 相关 性 检索 ， 人 在 Lucene 中 并 不 能 直接 支持 ， 还 
需要 在 深入 理解 源 代 码 的 基础 上 改动 或 者 另行 开 友 。 有 天 Lucene 更 详细 的 介绍 和 使 
用 方法 可 以 参考 参考 文献 [57]。 

在 需要 比较 强 的 率 引 扩展 性 的 情形 下 ， 还 可 以 考虑 使 用 
ElasticSearch ( http://www.elasticsearch.org) ， 这 是 一 个 基于 Lucene 
构建 的 开源 、 分 布 式 、RESTful 搜索 引擎 。 设 计 场 景 主要 是 在 云 计 算 的 环境 中 ， 能 
够 实现 稳定 可 靠 的 实时 搜索 ， 并 具有 良好 的 水 平 扩展 性 。 





图 9-2 中 的 各 个 模块 之 间 广 泛 地 存在 数据 交换 ， 不 过 由 于 各 模块 需求 的 不 同 ， 有 
时 我 们 会 选用 不 同 的 开发 语言 来 分 别 实现 它们 ; 或 者 由 于 开源 工具 的 不 同 ， 最 方便 
的 使 用 语言 也 不 同 。 为 了 方便 在 不 同 语言 的 模块 之 间 实 现 调 用 接口 ， 避 免 应 用 开 友 


者 过 多 地 将 精力 放 在 底层 通信 上 ， 开 源 社区 涌现 了 若干 个 跨 语言 通信 接口 工具 。 我 
们 以 Thrift 为 例 来 介绍 。 

Thrift ( http://thrift.apache.org ) 被 描述 为 “scalable cross- 
language services implementa-tion" (可 扩展 的 跨 语言 服务 实现 ) ^, Ca 
目 己 的 跨 机 器 的 通信 框架 ， 还 提供 了 一 套 代码 生成 工具 ， 可 以 生成 多 种 编程 语言 的 
通信 过 程 代码 。Thrift 有 一 种 描述 对 象 和 服务 的 界面 定义 语言 ( Interface 
Definition Language ,IDL )， 它 提供 了 一 种 网 络 协 议 ， 使 用 这 些 对 象 和 服务 定 
义 的 进程 之 间 基 于 这 种 网 络 协议 彼此 进行 通信 。Thrift 根 据 IDL 的 描述 可 以 生成 绝 
大 多 数 流 行 语言 ( 如 C++、Java、Python、PHP、Ruby、Erlang、Perl、 
Haskell、C#、Cocoa、JavaSscript 等 ) 的 代码 框架 。 因 此 ， 服 务 器 问 实 现 语言 不 
会 影响 到 客户 端 ， 这 给 复杂 的 计算 广告 扩 术 平台 不 同系 统 之 间 的 通信 提供 了 很 大 的 
便利 。 

此 外 ，Thrift 还 提供 了 实践 中 非常 有 用 的 版 本 兼容 性 功能 ， 即 服务 器 端 能 在 不 
影响 现 有 的 客户 端的 情况 下 增加 数据 结构 、 字 段 、 服 务 方法 和 六 数 参 数 。 这 一 特性 
使 得 大 型 工程 中 模块 间 的 依赖 性 大 为 减弱 ， 也 能 够 显著 降低 开发 成 本 。 因 此 ， 我们 
建议 在 计算 广告 的 系统 模块 之 间 尽 可 能 采用 Thrift 这 类 工具 封 濠 接口 。 

BX Thrift 的 设计 原理 和 更 多 细节 可 以 参考 [67]。 其 他 的 相关 开源 工具 还 
有 ProtoBuf ( http://code.google.com/p/protobuf ) 、 


Avro ( http://avro.apache.org ) 等 。 





计算 广告 这 样 的 个 性 化 系统 由 于 并 发 很 高 ， 产生 的 日 志 量 也 非常 大 。 人 在 这 类 系 
统 中 ， 应 该 避免 对 数据 做 单 点 的 集中 式 读 写 ， 而 是 尽量 应 该 让 数据 的 处 理 形 成 环形 
的 流动 ， 即 由 数据 高 速 公 路 将 线 上 日 志 准 实时 地 送 至 离线 或 在 线 处 理 平台 ,再 将 处 
理 结果 存放 在 缓存 中 供 线 上 决策 使 用 。 在 这 样 的 架构 中 ， 一 个 分 布 式 、 高 吞吐 率 的 
数据 传送 通道 至 天 重要 。 

在 这 类 数据 传输 工具 中 ，Flume ( http://flume.apache.org ) 是 比较 常用 的 
开源 解决 方案 之 一 。Flume 是 Cloudera 提供 的 一 个 高 可 用 的 、 高 可 靠 的 、 分 布 式 
的 海量 日 志 采 集 、 聚 合 和 传输 的 系统 ， 它 支持 在 日 志 系 统 中 定制 各 类 数据 友人 方 , 
用 于 分 布 式 地 收集 和 汇 思 日 志 数 据 。Flume 提供 了 从 控制 谷 (console), 
RPC(thrift-RPC), XÆ (text), Tail 操作 (UNIX tail), HERA 
(syslog , 文 持 TCP 和 UDP 两 种 模式 ) 以 及 命令 执行 ( exec ) 等 数据 源 上 收集 
数据 的 能 力 。 同 时 ，Flume 还 提供 了 对 数据 进行 简单 处 理 并 输出 到 各 种 数据 接收 方 的 
能 力 。 如 果 广 告 投放 机 采用 syslog 方 式 记录 投放 、 氮 击 等 日 志 ， 可 以 很 方便 地 通过 
配置 Flume 将 日 志 传 送 到 Hadoop 上 。 

其 他 的 相关 开源 工具 还 有 
Scribe (https://github.com/facebook/scribe ) 等 。 


9.5.6 分 布 式 类 HHSEG Hadoo 


Ce aco 


图 9- 2 中 的 离线 数据 处 理 部 分 需要 一 个 能 够 存储 和 加 工 海量 数据 的 基础 设施 ， 实 
际 上 这 也 是 大 多 数 大 数据 系统 都 需要 的 平台 。 人 在 开源 的 这 类 平台 工具 中 ， 
Hadoop ( http://hadoop.apache.org ) 几乎 是 工业 界 的 标准 选择 。Hadoop AIZ 
心 架 构 主要 包括 HDFS ( Hadoop Dis-tributed File System, Hadoop 分 布 式 文 


件 系统 ) Hadoop MapReduce 和 HBase， 其 中 HDFS 是 GFS ( Google File 
System ) “的 开源 实现 ,MapReduce 是 Google MapReduce'* 的 开源 实现 ， 而 HBase 
则 是 Google BigTablec 的 开源 实现 。 

HDFS 是 一 种 易于 横向 扩展 的 分 布 式 文件 系统 ， 提 供 大 规模 数据 文件 存储 服务 ， 
支持 PB 级 数据 规模 。 它 可 以 运行 在 上 万 台 的 通用 商业 服务 器 集群 上 ， 提供 副本 容错 
机 制 ， 为 海量 用 户 提供 性 能 优秀 的 人 存 取 服 务 。 计 算 广告 系统 里 的 海量 日 志文 件 等 融 
是 通过 Flume 之 类 的 数据 高 速 公 路 传送 ， 最 终 存 储 在 HDFS 上 ， 为 各 种 离线 计算 任务 
提供 服务 。 

Hadoop MapReduce 是 一 种 分 布 式 计算 框架 ， 顾名思义， 它 由 两 个 部 分 组 成 : 
Map ”和 Reduce。Map 是 将 一 个 作业 分 解 成 多 个 任务 ， 而 Reduce 是 将 分 解 后 多 任务 处 
理 的 结果 汇总 起 来 。 在 程序 设计 中 ， 一 项 工作 往往 可 以 被 拆 分 成 为 多 个 任务 ， 任 务 
之 间 的 关系 可 以 分 为 两 种 : 一 种 是 不 相 天 的 任务 ， 可 以 并 行 执行 ; 另 一 种 是 任务 之 
间 有 相互 依赖 ， 先 后 顺序 不 能 够 颠倒 ， 这 种 任务 是 无 法 并 行 处 理 的 。MapReduce if 
用 于 第 一 种 类 型 ， 庞 大 的 集群 可 以 看 作 是 硬件 资源 池 ， 将 任务 并 行 拆 分 ， 然 后 交 由 
每 一 个 空闲 硬件 资源 去 处 理 ， 能 够 极 大 地 提高 计算 效率 ， 同 时 这 种 资源 无 关 性 对 于 
计算 集群 的 横向 扩展 提供 了 最 好 的 设计 保证 。 为 了 降低 MapReduce 编 程 的 复杂 性 , 
MITE ART Hive, Pig? “等 开源 工具 产品 ， 使 用 类 似 于 sQ&t 的 脚本 语言 友 起 各 种 
数据 计算 任务 。 

在 广告 系统 中 ，Hadoop 主 要 承担 着 离线 数据 的 存储 和 计算 需求 ， 可 以 说 是 计算 
广告 系统 进行 大 规模 数据 处 理 不 可 或 缺 的 基础 平台 。 无 论 是 受众 定向 、 点 击 率 预 测 
还 是 基础 的 报表 生成 ， 都 需要 在 Hadoop 上 进行 大 规模 的 数据 处 理 。 因 次 ， 关 于 
Hadoop 的 原理 和 应 用 必须 深入 掌握 。 有 关 Hadoop 更 详细 的 介绍 和 学 习 资 料 可 以 参考 
参考 文献 [77]。 


9.5.7 TEA Redis 


SS redis 


无 论 是 离线 计算 的 受众 定向 标签 还 是 点 击 率 模 型 参数 或 特征 ， 由 于 规模 比较 
大 ,一 般 来 说 都 无 法 直接 存放 在 在 线 广告 投放 机 的 内 存 中 ， 而 是 要 用 独立 的 缓存 服 
务 。 在 线 用 到 的 特征 缓存 有 两 个 显著 的 特点 ， 首 先是 往往 只 需要 存储 简单 的 键 / 值 
对 ， 其 次 是 大 多 数 情形 下 需要 支持 高 并 发 的 随机 读 和 不 大 频繁 的 批量 写 。 在 这 样 的 
需求 下 ，Redis ( http://www.redis.io ) 是 比较 合适 的 开源 工具 之 一 。 

Redis 也 是 一 种 NosQL 数 据 库 ， 它 主要 提供 的 是 高 性 能 的 键 / 值 存 储 
(key/value store) ， 采 用 的 是 内 存 数据 集 的 方式 。Redis 的 键 值 可 以 包括 字符 
串 、 哈 希 、 列 表 、 集 合 和 有 序 集合 等 数据 类 型 ， 因 此 也 被 称 作 是 一 款 数 据 结构 服务 
器 ( data structure server), 。Redis 会 周期 性 地 把 更 新 的 数据 写 入 磁盘 或 者 把 
修改 操作 写 入 追加 的 记录 文件 ， 并 且 在 此 基础 上 实现 了 主 从 同步 ， 具 有 非常 快速 的 
非 阻塞 首次 同步 、 网 络 断 开 自 动 重 连 等 功能 。 同 时 ，Redis 还 具有 其 他 一 些 特性 ， 
其 中 包括 简单 的 check-and-set 机 制 、pub/sub 和 配置 设置 等 ， 使 得 它 能 够 表现 得 
更 像 高 速 缓存 (cache), Redis 还 提供 了 丰富 的 客户 端 ， 支持 现 阶 自流 行 的 大 多 
数 编程 语言 ， 使 用 起 来 比较 方便 。 

在 广告 系统 中 使 用 Redis， 需 要 注意 的 一 点 是 ， 当 以 批 处 理 方式 更 新 其 中 内 容 
时 ， 应 避免 对 线 上 高 并 发 的 读 请 求 产生 影响 ， 因 此 有 时 需要 采用 多 次 写 入 的 方案 。 

有 关 Redis 更 详细 的 介绍 和 使 用 方法 可 以 参考 参考 文献 [51]。 


9.5.8 流 计 算 平 台 Storm 


Q Apache Storm 


Hadoop ”能 够 处 理 的 数据 规模 相当 可 观 ， 但 是 处 理 的 啊 应 速度 却 很 难保 证 。 





此 ， 在 图 9-2 的 在 线 处 理 部 分 ， 需 要 一 种 新 型 的 、 能 够 以 数据 流 的 方式 对 线 上 日 志 准 
实时 处 理 的 平台 作为 基础 设施 ， 在 这 类 平台 的 开源 解决 方案 中 ， 工 业界 比较 常用 的 
是 Storm (http://storm.apache.org ) 。 

广告 中 需要 用 到 |) 流 计算 的 问题 包括 在 线 反 作 浆 、 计 费 、 实 时 受众 定向 和 实时 点 
击 反 馈 等 ( 参见 13 .3 节 ) 。 我 们 希望 的 解决 方案 是 能 够 自动 地 处 理 各 流 计 算 模块 间 
的 通信 和 数据 依赖 ， 并 能 够 在 数据 规模 增 大 时 自动 进行 分 布 式 的 负载 分 配 ，Storm 这 
样 的 流 计 算 平 台 就 可 以 为 我 们 实现 上 述 的 需求 。 流 计算 的 任务 逻辑 与 MapReduce 过 
程 有 些 类 似 ， 熟 悉 Hadoop 编 程 的 读者 也 可 以 比较 容易 地 在 Storm 上 开发 应 用 。 不 
过 需要 注意 的 是 ， 流 计算 的 任务 调度 原则 和 HDFS 上 的 MapReduce 不 同 ， 流 计算 是 调 
度数 据 ， 让 数据 在 不 同 的 计算 节点 间 流 动 起 来 ， 而 MapReduce 是 尽 可 能 调度 计算 以 
减少 数据 I/0。 因 此 ， 流 计算 从 本 质 上 讲 并 不 是 一 个 可 以 真正 处 理 海量 数据 的 框 
架 ， 它 的 特长 仍然 在 数据 处 理 的 响应 速度 上 。 

Storm 保证 每 个 消息 都 会 得 到 处 理 ， 而 且 处 理 速度 很 快 ， 每 秒 可 以 处 理 数 以 百 
万 计 的 消息 ， 并 且 可 以 使 用 任意 编程 语言 来 做 开 友 。 另 外 ，Sstorm 还 可 以 直接 部 署 
在 在 新 一 代 的 Hadoop 计 算 调 度 引 擎 YARN 上 ， 这 样 可 以 非常 方便 地 共享 一 个 Hadoop 集 
群 的 存储 功能 和 计算 资源 。 

其 他 的 相关 开源 工具 还 有 S4 ( http://incubator.apache.org/s4 ) UR FE 
要 介绍 的 Spark 的 ” Streaming 方式 (http://Spark.apache.org/streaming ) 
等 ， 但 它们 的 系统 特点 和 使 用 场景 还 是 有 一 定 的 差别 ， 读 者 可 以 自行 了 解 。 有 关 
Storm 更 详细 的 介绍 和 使 用 方法 可 以 参考 参考 文献 [2，86]。 





Soak 


Spark ( http://spark.apache.org ) Ei LFA , VEJI Ahi 
大 数据 计算 平台 受到 越 来 越 多 的 关注 ， 一 些 计算 广告 系统 也 开始 广泛 使 用 Spark 
平台 解决 一 些 需 要 欠 代 计算 的 问题 。 用 ”Hadoop ”进行 大 规模 数据 处 理 在 Map 和 
Reduce ”两 个 阶段 之 间 需 要 用 硬盘 进行 数据 交换 ， 因 此 在 需要 面 对 多 次 和 迭代 才能 完 
成 的 任务 时 效率 相当 低 。 由 于 这 样 的 迭代 计算 任务 在 计算 广告 中 很 常见 ( 参见 第 16 
EE) ， 如 文本 主题 模型 、 点 击 率 预 估 等 ， 我 们 非常 需要 一 种 更 适合 于 迭代 计算 的 框 


ZR. 





作为 一 种 新 型 分 布 式 计 算 框架 ，spark 的 最 大 特点 在 于 内 存 计算 。Sspark 的 计算 
模型 可 以 更 加 精简 地 描述 等 价 的 MapReduce 模 型 ， 另 外 由 于 Spark 的 数据 共享 基于 内 
人 存 ， 因 而 相对 于 基于 硬盘 的 Hadoop ”MapReduce 批 处 理 计 算 ， 其 性 能 有 数量 级 的 提 
升 。 此 外 ，Spark 可 以 在 一 套 软件 系统 上 支持 多 种 计算 任务 ， 除 了 传统 的 ” Hadoop 
MapReduce 所 对 应 的 批 处 理 计 算 之 外 ， 还 支持 各 种 机 器 学 习 算法 为 代表 的 迭代 型 计 
算 、 流 式 实时 计算 、 社 交 网 络 中 常用 的 图 计算 、SQL 关 系 查 询 、 交 互 式 即席 查询 等 。 
这 样 ， 使 用 Spark 就 可 以 避免 同时 维护 多 套 针对 不 同 计 算 需 求 的 系统 ， 还 可 以 避免 不 
同系 统 之 间 的 数据 转 储 ， 大 大 减低 了 开发 和 运 维 成 本 。 

BA Spark ”可 以 在 很 多 中 等 规模 的 迭代 计算 问题 上 表现 的 性 能 非常 优异 ， 但 
是 由 于 大 量 数 据 的 基础 存储 仍然 要 依赖 于 Hadoop， 在 两 个 集群 之 间 调 度数 据 成 为 高 
效 处 理 数据 的 障碍 。 不 过 ,与 Storm 一样， 现在 Spark 也 已 经 可 以 直接 部 署 在 
YARN 之 上 ,以 “Spark on YARN” 的 方式 与 Hadoop 方 便 地 共享 集群 的 存储 功能 和 
计算 资源 。 


有 关 Spark 更 详细 的 介绍 和 使 用 方法 可 以 参考 参考 文献 [21 ，45]。 
9.6 延伸 思考 


1. 对 于 你 熟悉 的 某 种 广告 产品 ， 如 何 估算 其 服务 成 本 ? 如 何 根据 广告 系统 的 特 
点 优化 这 一 成 本 ? 

2 .对 一 个 提供 受众 定向 的 效果 类 广告 产品 ， 如 何 估算 其 数据 处 理 的 规模 ? 
本 书 由 [ePUBw.COM| #232 , ePUBw.COM 提供 最 新 最 全 的 优质 
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计算 广告 并 不 是 一 门 独立 的 学 科 ， 它 更 应 该 被 看 成 是 一 个 工业 界 的 具体 问题 。 
在 解决 此 问题 的 过 程 中 ， 需 要 大 量 用 到 相关 学 科 的 一 些 基本 技术 和 算法 。 本 书 的 目 
的 并 不 是 专门 介绍 这 些 技术 ， 但 是 在 后 续 的 讨论 中 不 可 避免 需要 用 到 一 些 背景 知 
识 。 因 此 ， 我 们 在 进入 具体 的 广告 技术 和 算法 之 前 ， 移 概要 性 地 介绍 几 个 相 天 领域 
的 技术 和 算法 。 这 既是 为 后 面 的 算法 章节 铺垫 ， 也 是 为 了 帮助 读者 将 来 在 工作 中 遇 
到 相关 问题 时 可 以 有 目的 地 找到 相关 资料 。 

我 们 将 重点 关注 三 个 相关 领域 的 背景 知识 : 信息 检索 ( Information 
Retrieval ,IR ) 、 最 优化 (Optimization ) 和 机 器 学 习 (Machine Learning, 
ML). 。 信 息 检索 是 所 有 大 规模 数据 处 理 系 统 ， 特 别 是 搜索 和 个 性 化 系统 的 通用 技 
术 ， 而 为 了 了 解 广告 检索 、 流 量 预测 等 相关 问题 中 的 一 些 改进 算法 ， 必 须 对 其 中 的 
倒 排 索引 等 方法 有 基本 认识 。 对 于 所 有 与 数据 、 算 法 打交道 的 工程 师 来 说 ， 最 优化 
理论 的 重要 性 可 以 排 在 首位 ， 因 为 它 是 连接 问题 、 模 型 与 最 终 解决 方案 的 关键 桥 
梁 。 人 在 面 对 不 同类 型 的 最 优化 问题 时 的 一 般 思 路 和 基本 方法 ， 将 是 我 们 介绍 的 重 
扣 。 而 机 器 学 习 算 法 对 于 计算 广告 的 作用 不 言 而 喻 : 广告 中 的 许多 问题 ， 如 文本 主 
题 模型 、 受 众 定 向 、 点 击 率 预测 等 ， 都 需要 掌握 一 些 机 器 学 习 基 础 方法 ， 并 对 机 器 
学 习 的 方法 论 有 清晰 认识 。 我 们 将 主要 介绍 统计 机 器 学 习 的 框架 ， 并 关注 其 在 分 布 
式 计算 环境 下 的 实现 思路 。 

从 本 草 开 始 ， 我 们 会 用 C++ 或 Mat1lab 语 言 给 出 一 些 关 键 性 算法 或 过 程 的 示例 性 
代码 。 我 们 会 尽量 将 这 些 代码 的 具体 逻辑 实现 得 清晰 完整 ， 不 过 由 于 对 整个 系统 的 
依赖 性 ， 大 多 数 情 况 下 并 不 能 将 这 个 代码 视 为 可 实际 执行 的 代码 。 但 是 ， 人 在 参考 这 


些 示例 代码 的 基础 上 ， 相 信 读 者 可 以 比较 方便 地 在 实际 系统 中 实现 相应 的 功能 。 
10.1 信息 检 


从 第 8 章 介 绍 的 广告 系统 架构 可 以 看 出 ， 为 了 达到 面向 大 量 中 小 广告 主 时 展 好 
的 扩展 性 ， 计 算 广告 采用 的 是 类 搜索 的 技术 框架 ， 即 检索 加 排序 两 段 的 决策 过 程 。 
因此 ， 我 们 有 必要 对 搜索 引擎 信息 检索 的 基本 方法 有 所 了 解 ， 这 里 主要 介绍 倒 排 系 
引 和 向 量 空间 模型 。 


10.1.1 倒挂 索引 


IRFAS| (inverted index) 是 现代 搜索 引擎 的 核心 技术 之 一 ， 其 核心 目的 
是 将 从 大 量 文档 中 查找 包含 某 些 词 的 文档 集合 这 一 任务 用 0 (1) 或 0 (log n) 的 时 
间 复 杂 度 完成 ， 其 中 n 为 之 引 中 的 文档 数目 。 也 丈 是 说 ， 利 用 倒 排 达 引 技术 ， 可 以 
实现 与 文档 集 大 小 基本 无 天 的 检索 复 隶 度 ， 这 一 点 对 于 海量 内 容 的 检索 来 说 全 天 重 
要 。 正 是 有 了 倒 排 索引 近 术 的 文 撑 ， 互 联网 才 在 实时 检索 大 规模 数据 方面 取得 了 质 
的 跃 。 我 们 用 例子 来 说 明 倒 排 索引 的 基本 概念 ， 假 设 我 们 有 如 下 的 几 篇 文档 : 
D,=“ 谷 歌 地 图 之 父 跳 模 Facebook 
,= “谷歌 地 图 之 父 加 盟 Facebook” 
= “谷歌 地 图 创始 人 拉 斯 离开 谷歌 加 盟 Facebook” 
= “谷歌 地 图 创始 人 跳槽 Facebook 与 Wave 项 目 取 消 有 关 "” 
D,=“ 谷 歌 地 图 创始 人 拉 斯 加 盟 社交 网 站 Facebook 
对 每 篇 文档 都 进行 分 词 以 后 ， 可 知 这 些 文 档 中 包含 的 关键 词 (term) 有 : (€ 


ak, 地图， 之 父 ， 跳 槽 ，Facebook， 加 盟 ， 创 始 人 ， 拉 斯 ， 离 开 , E , wave ,项 
目 ， 取 消 ， 有 关 ， 社 交 ， 网 站 }。 首 先 ， 去 掉 “与 ”这 样 的 没有 实际 表意 作用 的 停止 


jal (stop word) ， 我 们 对 每 一 个 词 建 立 一 个 链表 ， 表 中 的 每 个 元 素 都 是 包含 该 词 


all 


的 某 篇 文档 的 标识 。 于 是 ， 与 上 面 的 文档 集 对 应 的 倒 排 素 引 ，, 也 就 是 所 有 关键 词 的 
倒 排 链 集合 可 以 表示 如 下 : 

谷歌 一 {D,，D,，D,，D,，D.} ,地 图 一 {D,，,D,, D,, D, D) ,之 父 一 {D,,D,，,D,， 
Dj, 

跳槽 一 {D , D.) , Facebook—{D, , D, D,, D,, D.) , 创始 人 一 {D } ， 

加 盟 一 {D,，D，D,}， 拉 斯 一 {D,，D,}， 离 开 一 {D,}，Wave 一 {D,} , 

取消 一 {D,}， 项 目 一 {D,}， 有 天 一 {D,}， 社 区 一 {D,}， 网 站 一 {D,}。 

为 了 后 文 一 些 实例 的 方便 ,我 们 用 下 面 一 段 代码 中 的 类 结构 来 描述 一 个 倒 排 过 
引 。 这 个 类 结构 派生 于 hash map， 其 中 的 键 为 天 键 词 ， 即 term， 典 型 情况 下 ， 该 键 
是 string 类 型 ， 但 是 在 后 文 介 绍 的 布尔 表达 式 检索 等 场景 中 ， 其 键 的 类 型 可 能 会 上 友 
生变 化 。 因 此 ， 为 了 逻辑 统一 ， 我 们 引入 了 模板 参数 来 泛 化 此 处 的 数据 类 型 。 而 
hash map 的 值 束 是 倒 排 链 ， 是 一 个 由 索引 条 目 组 成 的 链表 。 每 个 索引 条 目 有 两 个 
域 ， 第 一 个 是 该 条 目 对 应 的 文档 的 ID， 第 二 个 是 一 个 辅助 变量 ， 比 如 可 以 用 于 表示 
目前 关键 词 在 此 文档 的 TD-IDF ( 参见 16.1.2 节 ) ， 在 后 面 提 到 的 其 他 索引 类 型 中 也 
会 有 独特 的 应 有 用。 当然， 这 种 结构 只 是 一 个 概念 上 的 表达 ， 实 际 的 倒 排 索引 还 要 存 
储 很 多 其 他 信息 ， 为 了 便于 突出 主要 概念 ， 在 本 书 中 采用 这 样 简单 的 概念 性 摘 述 。 

倒 排 索 引 最 基本 的 操作 有 两 项 : 一 是 向 索引 中 加 入 一 个 新 文档 ， 二 是 给 定 一 个 
由 多 个 关键 词组 成 的 查询 时 ， 返回 对 应 的 文档 集合 。 我 们 也 在 下 面 的 代码 中 对 这 两 
项 基本 功能 的 实现 做 了 摘 述 。 需 要 注意 的 是 : 在 倒 排 索引 中 ， 由 于 文档 ID 是 在 加 入 
倒 排 索 引 时 被 在 线 分 配 的 ， 因 此 每 个 倒 排 链 都 可 以 确保 是 有 序 的 ， 这 会 在 后 面 的 应 
用 中 得 到 具体 利用 。 


template <class TKey> 
class InvIndex : public map<TKey, list<int>> i 
public: 

vector«vector«TKey» > docs; // 文档 正 排 表 


public: 
Jf 向 索引 中 加 入 一 个 文档 
void add(vector<TKey> & doc) { 
/LX 在 正 排 表 里 记录 该 文档 
docs .push_back (doc); 


int curDocID = docs.size() - i1; 


// it document € Ft A tern 

for (int w = 0; w < doc.size(); w ++) i 
map<TKey, list<int> >::iterator it; 
it = this -> find(doc[w]1); 


// 如 果 该 term 约 例 排 链 不 存在 ， 新 建 倒 排 链 
if (it == this -> end()) T 
list <int> newList; 
(*this)[doc[w]] = newList; 
it = this -> find(doc[vw]1); 


/A 在 倒 排 链 末 尾 插 入 新 的 文 禄 


it -> second. push_back(curDocID); 


/A 在 索引 中 进行 一 次 查询 


void retrieve(vector«TXey» & query, set<int> & docIDa) 
int termNum = query.size(); 
LV 合并 所 有 term 的 倒 拌 链 
docIDa.clear(); 
for (int t = 0; t < termNum: t ++) ( 
map<TKey, list<int> >::iterator it; 
// 该 term 例 排 链 不 存在 则 跳 过 
if (Cit = this -> find(query[t])) != this -> end()) 


docIDs.insert (it->second.begin(), it->second.end()); 


{ 


需要 说 明 ， 这 段 代 码 仅仅 是 帮助 大 家 了 解 问题 的 示例 性 代码 ， 而 实际 的 倒 排 索 
引 远 比 此 复杂 。 其 工程 难点 有 很 多 ， 比 如 如 何 设计 精简 的 数据 结构 以 节省 对 内 存 的 
使 用 以 及 如 何 比 较 实 时 地 将 新 的 文档 加 入 倒 排 兹 引 等 。 这 些 问 题 由 于 是 信息 检索 领 
域 专 门 的 研究 课题 ， 并 非 广 告 的 特殊 需求 ， 我 们 不 再 深入 介绍 。 需 要 自行 实现 广告 
检索 部 分 的 读者 可 以 参考 这 方面 专门 的 拉 术 文献 或 者 深入 学 习 9.5.3 节 中 介绍 的 开源 
的 倒 排 索引 工具 Lucene。 


10.1.2 向 量 空 ) 





如 果 襄 倒 排 索引 技术 是 大 规模 信息 检索 的 基石 ， 那 么 向 量 空间 模型 (Vector 
Space Model, VSM) “ 则 是 信息 检索 中 最 基础 且 最 重要 的 文档 相似 度 度 量 万 法 之 
一 。VSM 的 核心 有 两 点 : 文档 的 表示 方法 和 相似 度 计算 方法 。 

首先 ， 我 们 对 每 个 文档 采用 词 绕 (Bag of Words，Bow ) 假设 ， 即 用 各 个 天 键 
词 在 文档 中 的 强度 组 成 的 矢量 来 表示 该 文档 : 


a= [a ^ SM)! (10.1) 
其 中 x 一 般 采 用 词 表 中 第 m 个 词 在 d 中 对 应 的 TF-IDF (Term Frequency- 


Inverse DocumentFrequency， 词 频 -倒数 文档 频率 ) 值 ， 这 是 一 种 信息 检索 中 最 

常见 的 词 强度 度量 ， 可 以 分 解 为 两 个 量 的 乘积 : 一 个 量 是 词 频 (Term Frequency , 

TF) ， 即 某 文 档 中 该 词 出 现 的 次 数 ; 另 一 个 量 是 倒数 文档 频率 ( Inverse 

Document Frequency, IDF) ， 即 该 词 在 所 有 文档 中 出 现 的 频繁 程度 的 倒数 。IDF 

的 引入 是 考虑 到 那些 广泛 出 现在 各 个 文档 中 的 常用 词 对 主题 的 鉴别 力 并 不 强 ， 因 而 

需要 降低 其 权重 。IDF 的 计算 方法 有 若干 种 ， 最 常用 的 形式 为 : 

IDF(m) = log( N/DF(m)) (10.2) 
其 中 DF (m) Ail m 在 其 中 出 现 的 文档 的 总 数目 ，N 为 总 文档 数目 。 在 广告 

应 用 中 如 何 计算 IDF 值 ， 在 菏 些 情形 下 需要 不 同 的 处 理 。 例 如 ， 在 处 理 对 广告 主 有 价 


值 的 竞价 标的 词 时 ， 可 以 采用 所 有 广告 描述 ， 而 不 是 互联 网 上 的 网 页 作为 文档 集 
合 。 相 应 地 ， 在 根据 关键 词 进行 广告 检索 时 ， 也 应 该 使 用 这 种 方法 得 到 的 TF-IDF。 

这 样 的 Bow 文 档 表 示 方 法 是 对 自然 语言 最 简单 粗略 的 一 种 近似 表示 。 它 完全 忽略 
了 词 的 前 后 接续 关系 以 及 更 高 阶 的 语法 因素 的 影响 ， 因 而 并 不 太 可 能 具有 精细 的 文 
档 摘 述 能 力 。 不 过 ， 这 种 方法 在 信息 检索 中 的 作用 无 疑 是 巨大 的 ， 因 为 它 通 过 极为 
简单 经 济 的 操作 对 文档 进行 了 简化 ， 同 时 又 比较 好 地 保留 了 文档 的 概 狗 ， 这 对 于 海 
量 文档 数据 的 处 理 和 索引 非常 有 利 。 时 至 今日 ， 虽然 学 者 们 在 自然 语言 处 理 方 面 取 
得 了 许多 进展 ， 但 这 种 简单 的 方法 仍然 是 工程 实践 中 信息 检索 和 文档 主题 挖掘 的 最 
单 用 文档 表示 。 如 果 我 们 考虑 更 精细 的 文档 描述 ， 可 以 进一步 加 入 文档 的 n-gram 信 
息 ， 但 是 也 会 市 来 数据 的 爆炸 式 增 长 和 模型 估计 稳健 性 上 极 大 的 挑战 。 

采用 Bow 的 文档 表示 方法 ， 在 计算 两 个 文档 的 相似 度 时 ， 一 般 是 用 其 对 应 天 量 的 
余弦 距离 : 

d; d; 
iida || - ||d1 || 

余弦 距离 的 最 显著 好 处 是 当 两 个 矢量 在 尺度 上 没有 归 一 化 时 ， 仍 然 可 以 得 到 比 
较 稳健 的 结果 。 比 如 有 两 篇 一 样 的 文档 ， 将 其 中 的 一 篇 内 容重 复 一 雹 ， 再 去 计算 余 
纺 距 离 仍然 是 e， 而 如 果 采 用 其 他 方式 ， 如 欧 氏 距离 ， 结 果 融 不 再 是 e 了 。 再 比如 两 
个 人 对 各 种 电影 打分 ， 甲 倾向 于 给 较 高 的 分 数 ， 乙 倾向 于 给 较 低 的 分 数 ， 那 么 在 一 
组 3 部 电影 上 ， 甲 给 出 的 分 数 {3.6，3.6，4.8} 和 乙 给 出 的 分 数 (3.0, 3.0, 4.0} 
实际 上 一 致 程度 相 当 高 ， 这 也 可 以 被 余弦 距离 比较 公允 地 度量 出 来 。 

了 解 了 上 面 的 这 些 内 容 ， 读 者 可 以 建立 对 海量 文档 进行 检索 的 基本 方案 。 在 离 
线索 引 阶段 ,需要 对 文档 集合 分 词 ， 并 按照 BoW 模 型 表示 得 到 每 个 文档 的 TF-IDF 矢 
量 ， 对 分 词 后 的 文档 集合 建立 倒 排 索引 。 当 在 线 的 查询 到 来 时 ， 也 进行 分 词 ， 从 倒 
排 索引 中 查 出 所 有 符合 要 求 的 文档 候选 ， 并 对 其 中 的 每 个 候选 评价 其 与 查询 的 余弦 


cos(d,, d2) 一 (10.3) 


距离 ， 按 距离 由 小 到 大 进行 排序 。 这 样 的 一 个 基本 框 染 也 适用 于 广告 这 一 大 规 摸 数 


据 挖掘 问题 ， 也 是 图 9- 2 的 基本 原理 。 
虽然 VSM 不 是 实际 系统 中 对 检索 候选 进行 排序 的 常见 方法 ， 不 过 要 提醒 大 家 注 


意 ， 这 是 一 种 简单 、 无 需 训练 的 基线 万 法 。 因 此 ， 在 探索 各 种 数据 驱动 的 精细 模型 
Hj, 要 先 将 它们 与 VSM 方法 做 比较 。 


10.2 最 优化 方法 


为 了 探索 比 上 面 的 向 量 空间 模型 更 加 有 效 的 计算 广告 方案 
与 数据 挖掘 和 机 器 学 习 相 天 的 算法 问题 。 人 在 这 些 与 数据 相关 的 问题 中 ， 最 重要 的 基 
最 优化 理论 和 方法 。 最 优化 讨论 的 是 在 给 定 一 个 数学 上 明确 表达 的 优化 目 


| 必然 会 碰 到 大 量 的 


础 技能 是 
标 后 ， 如 何 用 系统 性 的 方法 和 思路 找到 该 目标 的 最 优 解 。 这 方面 的 书籍 和 文章 很 


多 ， 我 们 从 工程 的 角度 出 上 友 ， 简 要 整理 一 下 在 面临 各 类 目标 国 数 时 的 一 般 性 思路 ， 
并 希望 大 家 能 够 认 清 “ 模 型 ”和 “优化 ”这 两 个 概念 的 联系 与 区 别 。 
最 优化 问题 讨论 的 是 ， 给 定 某 个 确定 的 目标 消 数 以 及 该 函数 目 变量 的 一 些 约束 
条 件 ， 求 解 该 函数 的 最 大 或 最 小 值 的 问题 。 这 样 的 问题 可 以 表示 为 下 面 的 一 般 形 
s 


min f(a) (10.4) 


Si. g(x) x 0, h(z) =0 

这 里 f(x) 是 一 个 关于 自 变 量 x 的 目标 函数 ,而 g(x) h (x) A x 的 矢 
量 函 数 ， 对 应 着 一 组 不 等 式 和 等 式 约束 条 件 ， 其 中 g ( x ) <6 表 示 矢 量 g (x ) 的 每 一 
个 元 素 都 小 于 或 等 于 8。 根据 约 束 条 件 以 及 目标 函数 的 性 质 不 同 ， 最 优化 问题 求解 的 
思路 也 有 很 大 的 不 同 。 其 中 无 约束 优化 问题 的 方法 是 基础 ， 而 带 约束 优化 问题 则 在 
一 定 条件 下 可 以 转化 为 无 约束 优化 问题 来 求解 ， 这 涉及 下 面 将 要 谈 到 的 拉 格 朗 日 法 


和 凸 优化 问题 。 


10.2.1 拉 格 法 三 


我 们 先 来 看 看 解 带 约束 优化 问题 的 一 般 框 架 思 路 。 在 实际 工程 中 ， 带 约束 优化 
非常 常见 ， 如 后 面 将 提 到 的 广告 合约 量 约束 下 的 优化 问题 。 有 关 带 约束 优化 最 重要 
的 方法 就 是 拉 格 朗 日 法 。 具 体 来 说 ， 对 公式 10.4 那样 的 带 约束 优化 问题 ， 可 以 引 
入 一 个 搁 格 朗 日 对 偶 函 数 ( Lagrange dual function ) 或 简称 对 偶 函 数 : 


L(A, v) = inf | f(x) + A! g(x) +v' h(x) (10.5) 
这 里 引入 的 矢量 变量 和 v 称 为 拉 格 朗 日 乘 子 ， 对 偶 函 数 是 一 个 关于 拉 格 明日 乘 
子 的 函数 ， 对 应 地 ， 有 下 面 的 拉 格 朗 日 对 偶 问 题 ( Lagrange dual problem) : 
maxL(A,v) st. A-—0 (10.6) 
可 以 证 明 ， 对偶 问 题 的 最 优 值 是 原 问 题 最 优 值 的 下 界 ， 而 当 这 两 者 完全 一 致 
时 ， 称 为 强 对 偶 (strong duality) 得 到 满足 。 可 以 证 明 ， 当 原 问 题 是 凸 优 化 间 
题 ， 即 目标 消 数 为 凸 肖 数 ， 并 且 由 各 项 约束 得 到 的 可 行 解 域 ( feasible region) 
也 是 凸 的 话 ， 强 对 偶 总 是 被 满足 的 。 但 需要 特别 说 明 ， 并 不 是 只 有 吓 优 化 问题 才 是 
强 对 偶 的 号， 如 后 面 将 要 提 到 的 Trust -Region 法 中 的 子 问题 ， 虽 然 其 目标 函数 不 能 
保证 为 凸 ， 但 是 强 对 偶 也 是 可 以 保证 的 。 由 于 凸 优化 的 这 一 性 质 ， 它 在 带 约束 优化 
中 具有 非常 重要 的 核心 地 位 一 一 因为 我 们 可 以 通过 转 而 优化 对 偶 问 题 求 得 同样 的 
解 ， 这 为 优化 过 程 提 供 了 极 大 的 方便 性 。 另 外 有 趣 的 是 ， 不 论 原 问题 是 否 为 凸 优 
化 ， 这 一 对 偶 问 题 都 是 一 个 凸 优化 问题 ， 因 此 往往 在 求解 上 有 一 定 的 便利 性 。 
进一步 ， 当 原 目标 消 数 和 所 有 的 约束 函数 都 可 导 时 ， 强 对 偶 问 题 最 重要 的 性 质 
是 使 得 KKT ( Karush-Kuhn-Tucker ) “条 件 成 立 的 点 可 以 同时 满足 原 问题 和 对 偶 问 
题 最 优化 的 要 求 。KKT 条 件 是 一 组 关于 x， 入 ，v 的 等 式 和 不 等 式 方程 ， 它 为 很 多 带 约 
束 优 化 问题 提供 了 求 得 解析 解 的 思路 ， 这 里 我 们 略 去 其 具体 形式 ， 有 兴趣 的 读者 请 
进一步 参考 参考 文献 [13] 中 详细 的 





说明。 

拉 格 明日 乘 子 法 和 KKT 条 件 为 市 约束 优化 问题 提供 了 标准 思路 。 而 当 我 们 遇 到 的 
市 约束 优化 问题 为 凸 优化 时 ， 完 全 可 以 沿 着 这 一 标准 思路 来 解决 ; 当 问 题 不 是 凸 优 
化 时 ， 需 要 具体 分 析 强 对 偶 是 否 成 立 ， 再 决定 求解 的 思路 。 

通过 拉 格 明日 方法 ， 我 们 可 以 将 一 个 审 约 束 优化 问题 转化 为 不 市 约束 的 基本 优 
化 问题 来 解决 。 在 下 面 的 讨论 中 ， 我 们 将 根据 优化 问题 的 特点 介绍 无 约束 优化 的 一 
些 基本 算法 。 


10.2.2 条 单纯 形 ; 


在 有 些 问 题 中 ，f 不 可 导 或 者 工程 上 求 导 代价 极 大 和 这 种 情形 下 ， 假 设 消 数值 是 
连续 的 ， 我 们 有 一 种 目 然 的 思路 ， 那 融 是 采用 不 断 试探 的 方法 : 在 目 变 量 为 一 维 的 
情况 下 ， 给 定 一 个 切 始 区 间 ， 假 设 区 间 内 有 唯一 的 最 小 值 ， 可 以 按照 黄金 分 割 的 方 
法 不 断 缩小 区 间 以 得 到 最 小 值 。 

上 面 的 方法 也 可 以 推广 到 目 变 量 是 高 维 的 情形 ， 对 应 的 算法 称 为 下 降 单 纯 形 法 

(downhill simplex method), 。 这 一 方法 有 一 个 更 直观 的 称呼 ， 即 阿 米 巴 变形 虫 
法 。 简 单 地 进 ， 将 一 维 空间 上 用 两 个 点 限制 的 区 间 不 断 变形 的 思路 加 以 推广 ， 在 D 维 


空间 中 可 以 选择 一 个 D+1 个 点 张 成 的 超 多 面体 或 称 为 单纯 形 ( simplex) ， 然 后 对 这 
一 单纯 形 不 断 弯 形 以 收敛 到 函数 值 的 最 小 点 。 


有 关 下 降 单 纯 形 法 的 细节 和 代码 实现 可 以 参考 参考 文献 [66]。 
10.2.3 梯度 下 降 ; 
当 f 可 以 比较 容易 地 求 导 时 ， 基 于 梯度 的 方法 是 首要 选择 。 我 们 先 来 看 一 下 梯 
度 的 定义 。 假 设 有 D 维 空间 中 的 自 变 量 x= (x, X, ...x)'€Rm , 那么 函数 f(x ) 在 
x 点 的 梯度 可 以 写成 : 





Of Of Of ) (10.7) 


Vite) = (2, ae m 

梯度 的 几何 意义 是 f 在 x 点 函数 值 上 升 最 快 的 方向 ， 因 此 它 是 一 个 与 x 维 数 
相等 的 矢量 。 利 用 梯度 的 优化 方法 概念 上 就 是 每 次 都 沿 着 梯度 的 相反 方向 按 某 步 长 
前 进 一 小 步 ， 这 样 的 方法 称 为 梯度 下 降 法 (gradient descent) ， 其 更 新 公式 为 : 

TT—eVf(z) (10.8) 

其 中 1 控制 着 沿 梯 度 负 方向 下 降 的 速度 ， 称 为 学 习 率 ( learning rate). 

很 多 工程 中 的 目标 消 数 都 具有 可 分 解 的 特性 ， 即 整个 训练 集 上 的 梯度 可 以 表示 
为 各 个 训练 样本 梯度 的 和 和 。 人 在 这 种 情况 下 ， 一 个 可 行 但 效率 并 不 高 的 并 行 实现 束 是 
将 计算 梯度 的 过 程 分 解 到 各 个 数据 划分 上 分 别 完 成 ， 然 后 将 各 部 分 的 梯度 相 加 并 更 
新 参数 。 显 然 这 样 的 计算 过 程 非 常 容 易 在 MapReduce 框 架 下 实现 ， 然 而 每 迭代 一 
步 ， 都 要 用 到 训练 集 折 有 的 数据 ， 可 想 而 知 ， 人 在 数据 规模 较 大 时 ， 这 种 方法 的 迭 计 
算 效率 是 比较 低 的 。 

在 在 线 学 习 中 ， 梯 度 下 降 的 方法 还 有 另外 一 种 变形 ， 也 束 是 随机 梯度 下 降 
(Stochastic Gradient Descent , SGD) “的 方法 。 在 普通 梯度 方法 中 ， 计 算 一 
次 下 降 方向 需要 很 大 的 计算 量 ， 而 SGD 的 每 一 次 迭代 并 不 是 精确 地 计算 梯度 ， 而 是 基 
于 随机 选取 的 一 个 样 例 来 计算 梯度 。 这 是 一 个 重要 的 简化 ， 在 实际 大 数据 的 情况 
下 ， 这 比 普 通 的 梯度 法 效果 更 好 。 从 计算 角度 来 看 ，SGD 并 不 容易 并 行 实 现 ， 为 了 实 
现 其 并 行 计算 ， 产生 了 一 系列 并 行 SGD 算 法 和 相应 的 机 器 学 习 框 架 ， 如 
Parallelized SGD"“* 等 ， 有 兴趣 的 读者 可 以 深入 了 解 。 


10.2.4 WHATA 


在 实际 的 工程 问题 中 ， 简 单 地 采用 批 处 理 模 式 的 梯度 下 降 法 有 时 会 遇 到 一 个 麻 
烦 : 当 函 数值 对 各 个 自 变 量 归 一 化 不 够 好 时 ， 优 化 过 程 会 陷入 Zig-zag 折 线 更 新 的 


困境 ， 这 一 现象 可 以 用 图 16-1 中 的 例子 来 形象 地 说 明 。 在 自 变 量 维 数 很 高 时 ， 这 一 
问题 尤为 严重 ， 因 为 我 们 无 法 一 一 检查 各 个 目 变 量 的 意义 ， 因 此 在 某 些 维度 上 缩放 
尺度 不 一 样 是 无 法 避免 的 。 如 何 避 免 这 一 问题 呢 ? 我 们 假设 尔 数 值 呈现 像 图 16-1 中 
那样 呈 近 似 的 二 次 曲面 状 ， 那 么 很 目 然 的 思路 就 是 引入 二 阶 导数 信息 ， 以 迅速 探索 
SERIEN TES 


数 等 高 线 


pn. > 梯 度 下 降 优化 路 径 





图 16-1 梯度 下 降 法 优化 过 程 陷 入 Zig-zag 折 线 示 意 
f (x) 的 二 阶 导 数 是 一 个 DxD 的 矩阵 ， 其 定义 为 : 
vira) = S ZE 
DEO. J 3. os 
这 是 一 个 DxD AJAR , RALHA (Hessian matrix). 。 同 时 利用 
梯度 和 二 阶 导 数 做 优化 ， 相 当 于 在 当前 点 处 进行 二 阶 的 泰勒 展开 ， 并 找到 此 二 次 曲 
面 的 极 小 值 点 ， 这 样 的 方法 称 为 牛顿 法 ， 其 更 新 公式 为 : 


x—at+e[V?f(x)]  Vf(a) (10.10) 


(10.9) 


当 +=1 时 ， 和 牛顿 法 的 每 一 步 都 是 在 求 一 个 二 次 曲面 的 极 小 值 。 显 然 ， 只 有 当 赫 斯 
和 矩 阵 正定 时 ， 极 小 值 才 存 在 。 不 过 在 实际 的 优化 问题 中 ， 即 使 目标 消 数 存在 唯一 的 
极 小 值 ， 也 不 能 保证 每 一 点 的 赫 斯 矩阵 都 正定 ， 因 此 一 般 来 说 ， 牛 顿 法 并 不 是 想象 
中 那样 可 行 。 

解决 上 面 的 问题 其 实 也 不 难 : 我 们 可 以 构造 一 个 不 太 精 确 ， 但 是 可 以 保证 正定 
的 伪 赫 斯 埠 阵 ， 用 它 来 代 蔡 实际 的 赫 斯 矩阵 更 新 参数 ， 这 样 的 方法 束 是 工程 上 真正 
使 用 的 拟 牛 顿 法 。 直 观 上 来 看 ， 利 用 前 面 几 次 友 代 的 函数 值 和 梯度 可 以 近似 地 拟 合 
出 赫 斯 和 矩阵， 而 随 着 拟 合 公式 的 不 同 ， 也 就 产生 了 不 同 的 拟 牛 顿 方法 。 拟 牛顿 的 一 
种 常见 方法 是 由 Broy-den, Fletcher, Goldfarb 和 Shanno 四 位 学 者 创造 的 ， 
称 为 BFGS Fis. Œ BFGS 方法 中 ， 薪 斯 矩阵 的 逆 是 迭 代 更 新 的 ， 其 更 新 公式 如 
下 : 





p nor 
SS), . D, TP l "XM 
Bi = Bi + 一 一 E - Ji 十 | e [sys By + Biyis; | (10.11) 
psk | Ys Yi Sk 


其 中 y,= ,~-Y， 为 前 后 两 次 的 梯度 差 ， 而 s,=x,,-x， 为 前 后 两 次 的 自 变量 差 。 
这 里 之 所 以 要 直接 操作 赫 斯 矩阵 的 逆 是 因为 在 牛顿 法 的 更 新 中 ， 给 定 赫 斯 矩阵 的 逆 
和 梯度 矢量 ， 可 以 通过 入 单 的 矩阵 乘法 得 到 更 新 方向 ， 从 而 避免 了 复杂 的 求 逆 过 
程 。 

再 来 看 看 如 何 确 定 公 式 16.16 中 的 步 长 1。 牛顿 法 是 在 当前 自 变 量 点 进行 泰勒 
展开 ， 因 此 拟 合 出 来 的 二 次 曲面 严格 来 说 只 在 很 小 的 邻 域 内 是 有 效 的 ， 因 此 我 们 完 
全 无 法 保证 按 公式 16. 16 或 得 到 更 好 的 立 数 值 。 但 是 ， 当 1 足够 小 时 ， 一定 可 以 找到 
一 个 比 现 有 函数 值 更 优 的 点 。 要 找到 这 样 一 个 合适 的 +， 需 要 根据 Mo1fe 条 件 ”， 即 
要 求 1 满足 如 下 的 不 等 式 : 


f (2x + €py) Sf (Tk) + cieV fr py 


V f (ai + ep) Pk 2 oV fi Ph 

其 中 p 为 迭代 第 k 步 时 找到 的 下 降 方向 ， 在 拟 牛顿 法 中 即 为 Bf. (x) ， 而 
0 € ci € co € ] 为 两 个 常数 aa。 因此 ， 在 实际 的 拟 牛顿 法 中 ， 在 得 到 下 降 方向 
后 ， 需 要 在 下 降 方向 上 进行 线 搜索 (line search) ， 以 找到 满足 olfe 条 件 的 + 用 
以 更 新 参数 。 

需要 强调 ， 拟 牛顿 法 是 连续 优化 问题 中 最 为 基础 的 优化 方法 ， 它 作为 原子 操作 
大 量 地 被 用 在 其 他 更 为 复杂 的 优化 方法 当中 。 因 此 ， 对 拟 牛 顿 方法 熟练 地 掌握 和 应 
用 是 工程 中 非常 重要 的 基本 技能 。 我 们 在 下 面 附 上 BFGs 迭 代 求 解 的 代码 片段 。 


(10.12) 


// 用 于 计算 目标 函数 的 值 和 梯度 的 函数 指针 闫 型 
typedef vector<double> Vec; 
typedef void (*FP_EVAL) (const Vec & x, double & f x, Vec & df x, ...); 


BRON = 


yoo 


/A vAcd HFT, MBPs AK SE 476 4r gat E pea 
void BFGS(FP.EVAL f, Vec & x0) 1 


double f.x0, 


f£ xt; // aiea RG At BAA 


Vec df x0, df xt; // 初始 和 于 新 后 梯度 


Wen xt. S. € 


(x0, £20, 


df xOJ; 


// BANA RAT ARE x RAM 


int dim = x0. 


síze(): 


vector«Vec» B; B.resize(dim); 


for(int i = O; i < dim; i ++) (4 
B[i].resize(dim, 0.0); 
BES] fa] s 1.05; 


int iter - O; 
while(iter < MAX ITER.NUM && dot(df xO, df x0) > TOL) ( // F wpe ae 


// RFA EBV f(x) 


d = scale(multiply(B, df xO), -1.0); 


/A 线 搜索 


WolfeSearch(f, x0, d, xt); 


iret: EE; 


df_xt); 


s = minus(xt, x0); 
y = minus(df_xt, df_x0); 


ZA 迁 代 更 新 畦 斯 拒 阵 的 地 
Vec t - multiply(B, y); 


double rho 

double 1 = 

for Cant 1 
for (int 
BCil Cj] 
BCjj] Ci] 
+ 


m 2.0 f dot(y;, s23 

dot(t, y) = rho * rho + rho; 
= 0; i < B.size(); ++ i) 

j - OF J ew 3$; Ht 3429 1 

== rho * (s[i)] + t[j] + elj] 
- B[il[jl; 


f/f 进入 下 一 轮 选 代 


xO = xt; f. 


iter ++; 


xO = f xt; df.xÜ = df xt: 


* t[i]) + 1 + s[i) 


* s[jl; 





这 段 代 码 仍然 是 示例 性 的 ， 并 且 为 了 表述 简洁 ， 其 中 用 到 了 未 预先 定义 但 意义 
很 清楚 的 简单 的 运算 函数 ， 例 如 用 dot 函数 计算 两 个 适量 的 点 积 等 。 本 书后 面 的 一 
些 代码 也 会 有 这 样 的 情况 ， 我 们 就 不 一 一 说 明了 。 在 上 述 代码 中 用 到 了 一 维 线 搜索 
求解 步 长 ， 即 其 中 的 WolfeSearch 销 数 调 用 。 比 较 弟 见 的 万 案 是 基于 Wolfe 条 件 的 万 
法 ,下面 给 出 其 示例 性 代码 。 


c 
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// In 

Ky ; 习 标 函数 
// z0 : peg RSE 
// a : 搜索 方向 
// Out: 

// zt S 更 新 后 自 变量 


int WolfeSearch(FP EVAL f, const Vec & x0, const Vec & d, Vec & xt) { 
doubie f x0; f xt; 
vec d£.x0, df.xt; 


f(x0, £ x0, df.x0); 
double leftBound = 0.0, rightBound = MAX; // 初始 搜索 区 间 [0，MAX] 
double alpha = 1;  // 初始 步 长 

double C1 = 0.1, C2 = 0.9; 

double ddt, dd0 = dot(d, df x0); 


int iter - 0; 
while (iter < MAX_ITER_NUM) { 
xt = x0; 
plusAssign(xt, alpha, d); // xt = x0 + alpha * d， 检 查 下 一 个 点 


foxt f xt; df. x62; 
ddt = dot(d, df xt); 


if (f xt > f x0 + Ci * alpha * dd0) 4 // 检查 函数 是 否 充 分 下 降 
rightBound = alpha; 
alpha = (leftBound + rightBound) / 2; 

J 

else if (ddt < C2 * dd0) { // 检查 Wolfe 条 件 是 否 满足 
leftBound = alpha; 
alpha = (leftBound + rightBound) / 2; 

} 

else return 0; // 找到 了 满足 条件 的 点 

iter ++; 

} 


return -1; 


10.2.5 Trust-Region 法 
梯度 下 降 法 、 牛 顿 法 和 拟 牛顿 法 都 属于 线 搜索 方法 ， 它 们 的 共同 特点 是 ， 在 当 
前 迭代 点 x' 处 寻找 下 一 个 迭代 点 x“ 了 时， 首先 确定 一 个 下 降 方 向 ， 然 后 沿 着 这 个 下 降 
方向 进行 一 维 线 搜索 。 这 种 搜索 策略 可 以 概括 为 “ 先 方向 ， 后 步 长 ”。Trust- 
Region 法 采用 的 是 一 种 不 同 的 搜索 策略 : 每 次 迭代 时 ， 将 搜索 范围 限制 在 x、 的 一 个 
置信 域内 ， 然 后 同时 决定 下 次 迭代 的 方向 和 步 长 ; 如 果 当 前 置信 域内 找 不 到 可 行 
解 ， 则 缩小 置信 域 范围 在 每 个 迭代 中 ， 我 们 要 求 自 变量 的 差 s, 满 足 || Sell < 0 
。 另 外 为 了 单 次 迭代 求解 的 效率 ， 用 函数 在 x, 附 近 的 泰勒 展开 
mx(s) = f(zx)+ +V' f(ax)s 十 38! V? f (Zk) SARRE 
数 f ( x+s ) 。 上 有 具体 来 说 ， 每 一 次 迭代 需要 解 下 面 形式 的 子 问题 : 
min f(a,)+V' f(zi)s + har as ja 
8 2 (10.13) 
s.t. lode 2 < 
过 解 得 的 s — — 向 和 步 长 。 由 于 此 过 程 没有 对 目标 
函数 的 一 阶 导 和 二 阶 导 做 近似 ， 往 往 能 够 更 准确 地 把 握 下 降 方向 ， 因 此 有 时 能 表现 
出 比拟 牛顿 法 更 好 的 收敛 性 能 。 

在 公式 16.13 的 基础 上 ， 为 了 实现 Trust-Region 优 化 策略 ， 还 需要 确定 置信 
半径 565， 的 选取 。 一 般 来 说 ， 可 以 通过 比较 模型 函数 和 目标 函数 的 下 降 量 来 指导 置 
信 半 径 的 选择 : 
f(zk) — f(zx + s) 

mx(0) — mls) 

如 果 Pk SO ， 说 明 目 标 函 数值 没有 改进 ; 若 模 型 函数 较真 实地 逼近 了 目标 函 

数 ， 我 们 期 望 p, 的 值 接近 于 1 ; WOR, ”的 值 较 小 ， 说 明 在 当前 置信 域内 ， 模 型 函数 


pk = 


和 目标 国 数 差别 较 大 ， 需 要 缩小 当前 的 置信 域 ; 如 果 p, ERA S, JARRE 
代 时 适当 伸 长 收敛 半径 。 在 这 一 思路 的 基础 上 ， 我 们 附 上 Trust-Region 算 法 主流 程 
的 代码 片段 。 
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// 用 Trust-Region 方 法 求 习 标 函 数 f 的 局 部 授 小 值 ， 选 代 初 始点 zeg 
void TrustRegion(FP_EVAL f, Vec k x0) f 


double delta, snorm, prered, actred, f. x0, tf 


= c. Ih; 


int iter = 0; 


Veo x0. xb, af aN; Ee xb, 5, rij 


fI(xO, f.xQ, BEKO} 


delta = dot(df xO, df_x0); 
double gnormi = delta; 


while (iter < MAX_ITER_NUM) 1 
// ART 8810.13 Be 
vr cg(delta, df.x0, 6, rJ); 


// Wt = mod 8 

/A 37 ear DOHA far) Fe RE TET JG) 
xt = x0; 

plusAssign(xt, 1, s); 

fÜxb. fT xt. dI xtj; 


KY ys fimeu)—fGmy--8) 


m; (0)—mpriís) 
Bcbred = f xü = f xt; 
prered = -0.5 * (dot(df x0, B) = dot(s, r)); 


rho = actred / prered; 


/A FAS $638 1X a9] TS RK 
snorm = dot(s, 5s); 


if (iter -- 0) delta - min(delta, snorm); 


Z7 TRAE Bp dk, FRR BAI LR Fo — LHL), BA Ris Bag te 
double delta_cld = delta; 
delta = updateDelta(actred, prered, delta_old); 


// Ro, mg Megi = Ti 二 Bk， 否则 kl = ome 
if (rho > ETAO) £ 

50 - xt: f.xO0 = f rt^. df x0 a df rt- 

double gnorz = dot(df x0, df xO); 

ZA pg dk 

if (gnorm <= eps * gnormi) 

break; 

} 


iter ++; 





每 个 迭代 中 需要 解 子 问题 10.13， 即 代码 中 tr “cg 的 函数 调用 。 显 然 ， 这 是 一 个 
市 约束 优化 问题 ， 由 于 Vf (x,— ) 未 必 是 正定 的 ， 因 此 这 并 不 是 一 个 凸 优 化 问题 。 
不 过 ， 在 这 个 特殊 的 非 凸 优化 中 ， 读 者 可 以 目 行 验证 ，KKT ”条 件 是 可 以 满足 的 , 


此 仍然 可 以 用 拉 格 朗 日 法 来 求解 。 我 们 略 去 求解 的 过 程 ， 直 接 给 出 下 面 的 解 。” 为 


问题 10.13 的 全 局 最 优 解 ， 当 上 且 仅 当 本身 是 一 个 可 行 解 ， 并 且 存 在 入 之 0 满足 下 
面 的 条 件 : 


(Hi + AI)8— - V f (ax) 
NOx — llêl) = 0 (10.14) 


(H;,+A1) > 
最 后 一 个 不 等 式 表示 矩阵 ( H+ 和 I ) 是 半 正 定 的 。 当 “s 位 于 置信 域内 部 时 ， 


^ 


— —1 ^ 
Xe, gatas 一 Hy Vk) ; 当 S 位 于 置信 域 边 界 上 时 ,和 >8 , IRSE 
为 寻找 充分 大 的 >86， 使 得 H +AI 半 正定 ， 并 且 为 


= =] i — 和 
| — (He + AD) VF (ae) I] = ôr 这 一 方程 的 根 ， 此 时 虽然 不 存在 显 式 


解 ， 但 由 于 这 是 一 个 单 变 量 的 优化 问题 ， 可 以 比较 方便 地 用 线 搜索 的 方法 得 到 解 。 
根据 公 陈 16.14， 读 者 容易 写 出 tr_cg 冰 数 的 具体 实现 。 


10.3 统计 机 器 学 三 


机 器 学 习 是 近年 来 得 到 快速 友 展 和 广泛 应 用 的 研究 领域 ， 它 研究 的 是 用 数据 或 
先 验 知识 优化 计算 机 算法 的 效果 。 从 机 器 学 习 的 方法 可 以 分 为 统计 方法 和 非 统计 方 
法 。 非 统计 的 方法 种 类 很 多 ， 并 且 往 往 最 后 都 归结 于 一 个 具体 的 优化 问题 ， 可 以 通 
过 深入 掌握 优化 理论 和 算法 ， 比 较 有 效 地 把 握 各 种 非 统 计 类 方法 。 而 统计 类 机 器 学 


习 广 法， 虽然 也 用 到 最 优化 万 法， 但 是 还 有 一 些 在 概率 框架 下 系统 性 的 思路 。 下 面 
我 们 把 统计 方法 的 脉络 稍 加 整理 ， 供 大 家 参考 。 


10.3.1 RAISER 


统计 机 器 学 习 中 ， 指 数 族 形式 ”的 分 布 由 于 求解 的 方便 性 ， 有 非常 重要 的 工程 地 
位 ， 我 们 先 来 看 一 下 这 一 族 分 布 形式 产生 的 原因 。 要 了 解 指数 族 形 式 产 生 的 原因 ， 
molo f WEBCAM (Maximum Entropy , ME ) RE", RARER], SE 
某 些 约束 条 件 下 选择 统计 模型 时 ， 需 要 尽 可 能 选择 满足 这 些 条 件 的 模型 中 不 确定 性 
最 大 的 那个 。 如 果 采 用 粹 作为 统计 不 确定 性 的 度量 ， 这 个 问题 就 变 成 一 个 在 这 些 约 
束 下 优化 灼 问题 。 在 最 大 灼 准则 下 ， 估 计 一 个 概率 的 优化 问题 可 以 表示 成 : 
p(x) - arg max H (a) 

pz) (10.15) 
st. Ej[fuiz)] = Eglfam)], d=1,---,D 

其 中 H (x ) =-p (x) In p(x) 为 概率 分 布 p (x ) AIM, f, (x ) 为 一 组 特征 

函数 ， 而 优化 中 约束 的 意义 是 这 一 组 特征 函数 在 模型 p ( x ) 下 的 均值 等 于 其 数据 上 


的 均值 (p(x) 为 数据 分 布 ) 。 有 时 是 用 最 大 炳 准则 来 优化 一 个 条 件 分 布 

p(xly) ， 在 这 种 情形 下 ， 可 以 很 方便 地 构造 一 个 相应 的 根据 特征 x 对 标签 y ”进行 
分 类 的 模型 ， 本 书后 面 将 谈 到 的 点 击 率 预 测 的 逻辑 回归 模型 也 属于 此 最 大 粒 模 型 的 
特例 。 

上 面 的 最 大 炳 问题 的 男 一 项 产 出 就 是 指数 族 分 布 。 将 拉 格 朗 日 方法 应 用 于 问题 
16.15， 有 一 项 重要 的 结论 ， 融 是 求 其 最 大 录 解 等 价 于 求 一 个 对 应 指数 形式 分 布 的 最 
大 似 然 解 。 这 样 的 结果 带 来 了 指数 族 分 布 这 一 工程 中 非常 常用 的 分 布 形式 。 指 数 族 
分 布 的 归 一 化 形式 ( canonical form ) 可 以 表示 为 : 
p(x|0) = h(z)g(0) exp{0 ' u(x)} (10.16) 


在 这 一 形式 中 ，u (x) 为 上 面 f, (x) 聚合 在 一 起 的 矢量 形式 ; 9 为 指数 族 分 布 
的 参数 ， 而 g ( 6 ) 为 使 得 概率 密度 曲线 下 面积 为 ”1 的 归 一 化 项 。 指 数 族 分 布 在 建 
模 上 被 广泛 采用 是 因为 一 个 重要 的 特性 : 指数 族 分 布 参数 的 最 大 似 然 估 可 以 完全 由 
其 充分 统计 量 ( sufficient statistics) 

得 到 。 这 里 的 充分 统计 量 指 的 是 训练 集 上 变换 函数 u ( x ) 的 统计 量 ， 即 


N 
» dca u(z;) 


。 在 给 定 了 充分 统计 量 以 后 ，6 的 最 大 似 然 解 可 以 通过 解 下 式 求 得 : 
N 
| 
-V lng(OML) = N 2. u(z;) (10.17) 


这 一 概念 强调 的 是 ， 在 给 定 充分 统计 量 以 后 ， 最 大 似 然 估计 过 程 与 数据 无 关 。 
根据 充分 统计 量 的 形式 ， 我 们 很 容易 得 出 ， 无 论 什 么 样 的 指数 族 分 布 ， 都 只 需要 遍 
历 一 这 数据 就 可 以 得 到 最 大 似 然 解 ， 这 一 点 实际 上 对 应 了 一 个 非常 简便 的 
MapReduce 实 现 。 这 也 是 指数 族 分 布 在 大 数据 运算 上 带 给 我 们 的 最 大 便利 性 。 由 于 
六 族 的 分 布 形 式 与 最 大 炉 原 理 的 本 质 联系 ， 这 一 族 的 许多 重要 分 布 都 可 以 从 最 大 
炉 的 角度 加 以 解释 。 表 19-1 总 结 了 几 种 重要 的 指数 族 分 布 形式 以 及 其 主要 用 于 描述 
的 变量 类 型 


表 16-1 若干 重要 指数 族 分 布 形式 
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从 表 16-1 ”给 出 的 示例 中 可 以 友 现 指数 族 分 布 的 另 一 个 重要 特点 一 一 分 布 都 是 
单 模 态 ( uni-modal ) 的 。 所 谓 单 模 态 ， 可 以 理解 为 分 布 从 几何 形态 上 看 只 有 一 个 
峰 或 者 一 个 谷 ， 这 说 明 指 数 族 分 布 虽然 数学 上 使 用 方便 ， 但 其 实际 的 描述 能 力 是 有 
限 的 ， 并 不 适合 于 表达 多 种 因素 并 存 的 随机 变量 。 

10.3.2 混合 模型 和 EM 算法 

由 于 指数 族 分 布 是 单 模 态 的 ， 因 而 不 适用 于 分 布 比 较 复杂 的 数据 建 模 。 为 了 解 
决 这 个 问题 ， 同 时 又 能 充分 利用 到 指数 族 分 布 的 一 些 方便 的 性 质 ， 工 程 领 域 产生 了 
采用 多 个 指数 族 分 布 堵 加 的 部 分 来 建 模 的 实用 方法 ， 即 混合 模型 ( mixture 
model), 。 指 数 族 分 布 形 式 的 混合 模型 可 以 表示 为 : 


K 
plz|w, 0) = 3 wy h(a:)g(05.) exp{0; ulz)} (10.18) 
k=1 


其 中 w- (o, , ^, 0,) 为 各 个 组 成 分 布 先 验 概率 ， 而 9={6. ，… ,6,} 表 示 各 个 
组 成 分 布 的 参数 。 这 一 分 布 的 图 模型 如 图 16- 2 所 示 。 





图 16-2 混合 分 布 的 概率 图 模型 表示 

在 许多 常见 的 机 器 学 习 模 型 当中 ， 根 据 多 个 变量 的 条 件 依赖 关系 ， 图 10-2 的 有 
同 图 模型 可 以 比较 清晰 地 表达 整体 的 联合 分 布 。 有 同 图 模型 的 每 一 个 节点 代表 一 个 
随机 变量 ， 而 给 定 了 该 变量 所 有 入 边 对 应 的 起 始 忆 点 后 ， 该 变量 的 分 布 与 其 他 所 有 
变量 都 条 件 无 天 。 需 要 指出 ， 有 向 图 模型 本 身 只 给 出 了 条 件 依赖 天 系 ， 并 没有 了 明确 
各 条 件 分 布 的 形式 。 一 般 来 说 ， 我 们 在 工程 中 的 思路 是 ， 用 图 模型 表达 先 验 的 变量 
结构 关系 ， 然 后 对 每 个 条 件 分 布 选 取 合 适 的 指数 族 分 布 来 建 模 ， 而 混合 分 布 模型 就 
是 了 解 这 种 工程 思路 的 最 典型 例子 。 按 照 上 面 的 有 向 图 模型 表示 ， 我 们 引入 了 多 项 
式 变 量 z= ( z,，…，z, ) ;来 明确 表示 状态 ， 可 以 把 混合 分 布 改 写成 结构 更 清晰 的 表达 
XU 


p(alw,) = Y Tug {h(ar)g(0x) exp(8z uz) (10.19) 
v k 


在 混合 模型 的 最 大 似 然 求 解 过 程 中 ， 最 大 期 望 ( Expectation- 
Maximization , EM) 算法 起 着 非常 重要 的 作用 。 从 上 面 的 概率 图 模型 例子 可 以 看 
出 ， 除 了 要 求解 的 参数 w、 昌 和 观测 到 的 变量 x， 还 存在 一 个 变量 z， 我 们 把 这 样 的 变 
量 称 为 隐 变 量 (hidden variable). 。EM 算 法 就 是 为 了 解决 有 隐 变 量 存 在 时 的 最 大 
似 然 估计 问题 的 。 这 是 一 种 运 代 的 算法 ， 每 个 迭代 又 可 以 分 为 E- step 和 M- step。 在 


E-step 阶 段 ， 将 参数 变量 和 观测 变量 都 固定， 得 到 隐 变 量 的 后 验 分 布 TE M-step 
阶段 ， 用 得 到 的 隐 变 量 的 后 验 分 布 和 观测 变量 再 去 更 新 参数 变量 。 以 上 面 的 混合 分 
布 问题 为 例 ， 在 EM 算法 的 每 一 步 和 迭代 当中 ， 都 转 而 求解 以 下 辅助 函数 优化 问题 : 


max Q(w,@;w°",@"") E max ) (2X u^, 8"*)Inp(X,u, lz) (10.20) 


由 于 此 时 的 隐 变 量 z 是 离散 的 ， 因 此 等 式 右边 为 求 和 的 形式 ， 如 果 在 其 他 问题 中 
遇 到 的 隐 变 量 是 连续 的 ， 那 么 只 需要 将 求 和 号 换 成 积分 号 即 可 。 
对 应 于 公式 16.26， 指 数 族 混合 分 布 EM 算法 的 E-step 和 M- step 可 以 很 容易 
求 出 ， 其 结果 如 下 陈 : 
welt gl 8: expfu (i)0°"} 
Eug expla" (n8) 
N 


new l 
M-step: - VIng(8, ) = N Fm ^y; (k)u(a;) (10,22) 


a= L, ll 

在 混合 分 布 的 情形 下 ， 这 种 分 解 使 得 许多 非 指数 族 分 布 的 模型 在 进行 最 大 似 然 
估计 时 ， 其 M- step ”形式 上 与 简单 的 捐 数 族 分 布 是 一 致 的 ， 这 也 使 得 指数 族 分 布 工 
程 上 的 便利 性 得 以 继续 发 挥 。 昌 然 。 M-step 的 形式 与 指数 族 最 大 似 然 估 计 的 形式 公 
式 ”18.17 非 常 相近， 我们 却 不 宜 将 等 式 右边 的 部 分 也 称 为 充分 统计 量 ， 因 为 这 一 过 
程 是 迭代 进行 的 ， 需 要 多 次 访问 数据 才能 完成 最 大 似 然 估 计 ， 因 此 ， 简单 地 称 其 为 
统计 量 更 为 准确 。 

指数 族 分 布 的 混合 模型 在 工程 中 的 应 用 同样 很 广泛 ， 只 要 是 单 模 态 分 布 不 易 刻 
画 的 数据 分 布 都 可 以 考虑 用 采种 指数 族 分 布 署 加 的 方式 更 精确 地 建 模 。 弟 见 的 混合 


模型 ， 如 高 斯 混合 模型 (Mixture of Gaussians , MoG ) 和 概率 潜在 语义 索引 


E-step: i(k) £ plap = 110%, w, z) = (10.21) 


(Probabilistic Latent Semantic Index, PLSI) ， 可 以 认为 后 者 是 建立 在 多 
项 式 分 布 基础 上 的 混合 模型 ， 在 文本 主题 分 析 中 有 着 广泛 的 应 用 。 
需要 注意 的 是 ， 指 数 族 混合 分 布 的 EM 算法 只 是 EM 算法 的 一 种 较 简 单 的 特殊 情 
况 ， 这 一 算法 广泛 应 用 于 各 种 隐 变 量 存在 的 统计 模型 训练 中 ， 有 关 这 方面 更 详细 的 
理论 和 应 用 介绍 可 以 参考 参考 文献 [9，28]。 
10.3.3 贝 叶 斯 学 习 
以 上 讨论 的 模型 参数 估计 方法 都 是 在 最 大 似 然 准 则 下 进行 的 。 最 大 似 然 难 则 是 
把 模型 的 参数 看 成 固定 的 ， 然 后 找到 使 得 训练 数据 上 似 然 值 最 大 的 参数 ， 这 是 一 种 
参数 点 估计 (point estimation) 的 方法 。 这 样 的 点 估计 方法 在 实际 中 如 果 遇 到 数 
据 样 本 不 足 的 情形 ， 往 往 会 产生 比较 大 的 估计 偏差 。 对 此 ， 工 程 上 常常 用 到 贝 叶 斯 
学 习 的 方法 论 。 为 了 介绍 贝 叶 斯 学 习 的 基本 概念 ， 我 们 先 从 下 面 的 贝 叶 斯 公式 入 手 
了 解 其 中 的 关键 概念 。 
似 然 值 先 验 分 布 
— 产 人 
_ P(X|@) p8) 


p(0|X)- ——————— (10.23) 
一 D( X) 
后 验 分 布 mre 


evidence 


在 贝 叶 斯 体系 下 ， 模 型 参数 6 不 再 被 认为 是 固定 不 变 的 量 ， 而 是 服从 一 定 分 布 的 
随机 变量 。 在 没有 数据 支持 的 情况 下 ， 我 们 对 其 有 一 个 假设 性 的 分 布 p ( 6 ) ， 这 称 
为 先 验 分 布 ( prior )， 而 在 观测 到 数据 集 Xx={x,，…，x,} 以 后 ， 根 据 数据 集 上 表现 
出 来 的 似 然 值 ( likelihood) p ( X19 )， 可 以 得 到 调整 后 的 后 验 分 布 p (6|x 
) 。 先 验 分 布 、 后 验 分 布 和 似 然 值 之 间 的 变换 关系 就 通过 上 面 的 贝 叶 斯 公式 表达 出 
来 。 等 式 右 侧 的 分 母 项 也 是 贝 叶 斯 学 习 中 的 一 个 重要 概念 ， 称 为 evidence ， 它 可 以 
展开 表示 为 p(X ) =R p (X19 )p(9)d9。 由 贝 叶 斯 公式 和 这 些 重 要 概念 出 友 , 
表 16-2 对 比 了 三 种 弟 见 的 模型 估计 方法 。 


表 16-2 若干 常见 模型 估计 方法 


模型 估计 方法 参数 估计 预测 





RABAT y. = argmaxg (X0) o(olX) = plod) 
贝 叶 其 方法 p(0|X) = p(X|0)p(0) (0X) 5 | p(o8)p(6| X)dé 
HK Ti Ox = argmaxy p(6|X) plolX) = plold ) 





概率 统计 模型 有 两 个 常见 任务 : 一 是 参数 估计 (parameter estimation) , 
二 是 预测 ( prediction ) 。 其 中 第 二 项 任务 指 的 是 给 定 一 组 训练 数据 X | oR 
新 的 观测 数据 o 的 概率 。 在 最 大 似 然 体 系 中 ， 参 数 估计 是 根据 似 然 值 最 大 化 得 到 的 
所 估计 ， 而 预测 过 程 就 利用 估计 出 来 的 参数 计算 似 然 值 p ( o16 ) 即 可 。 在 贝 叶 斯 
体系 下 ， 参 数 的 点 估计 为 其 后 验 分 布 所 代替 ， 也 就 意味 着 参数 在 估计 结果 中 具有 不 
RE, 于是， 在 预测 过 程 中 ， 需 要 用 积分 的 方式 将 参数 的 不 同 可 能 性 都 加 以 考 
虑 ， 这 是 两 者 非常 本 质 的 区 别 。 还 有 一 种 常见 的 参数 估计 方法 ， 即 最 大 后 验 概率 
(Maximum A Posterior, MAP ) 方法 ， 它 本 质 上 仍然 是 点 估计 方法 ， 只 不 过 同样 
引入 了 先 验 部 分 对 参数 作 规范 化 ， 因 此 ， 其 参数 估计 形式 上 是 对 贝 叶 斯 后 验 概率 求 
极 值 ， 而 预测 过 程 则 与 最 大 似 然 情形 一 样 。 

1.258 07028 

贝 叶 斯 方法 的 关键 问题 之 一 是 如 何 选 择 公式 16 .23 中 的 先 验 分 布 p ( 6 ) 。 这 一 
点 有 两 层 含义 : 一 是 如 何 选择 先 验 分 布 的 形式 ， 二 是 如 何 确定 先 验 分 布 中 的 参数 。 
之 所 以 要 讨论 这 个 问题 ， 是 因为 虽然 先 验 分 布 的 形式 是 我 们 选择 的 ， 但 后 验 分 布 
p(6|x  ) 的 形式 却 无 法 选择 ， 而 后 验 分 布 才 是 在 使 用 中 最 关键 的 ， 其 形式 如 果 过 
于 复杂 ， 会 给 实际 应 用 带 来 很 大 困难 。 如 果 我 们 能 够 找到 一 种 先 验 分 布 ， 使 得 相应 
的 后 验 分 布 也 具有 同样 的 形式 ， 无 疑 是 方便 的 。 满 足 这 种 条 件 的 先 验 分 布 就 称 为 共 
fou ( conjugate prior), 


WF HAE TOA , BARMERA , KM RIALS 
EARNE LEE LAE. XJ 2xx610.168918 240 st , BHA 
一 般 性 地 写成 : 


p(@|n) = exp {x 6 — vg(0) — b(x. v)| (10.24) 


(EAS EX , Xp BUR HAE CIN Th PASSA. , ELFHSURSZR 
学 工具 也 残 与 前 面 的 讨论 一 致 。 这 一 先 验 分 布 的 参数 N={X ,Vv} 称 为 超 参 数 
( hyper-parameter ) , n 控制 着 先 验 分 布 的 具体 形状 。 

将 前 面 介绍 的 几 种 典型 指数 族 分 布 与 公式 10.24 相对 照 ， 可 以 得 到 以 下 相应 


ASHES Cae. 

( 1 ) 对 于 高 斯 分 布 ， WRN SBA Mae , XSINIBUSCUE CIS USATE: 
高 斯 分 布 。 

(2) 对 于 y 分 布 ， 其 对 应 的 共 轿 先 验 称 为 维 希 特 分 布 (Wishart 


distribution), 

(3) FERAS , Rx MAH eA Se (Dirichlet 
distribution), SIAR eB xX He SIMA SAE RT RET 
重要 的 分 布 形式 。 

当 模 型 为 指数 族 分 布 并 选择 共 四 先 验 的 情形 下 ， 对 应 的 后 验 分 布 p (9|Xx =) AY 
以 很 简单 地 写成 下 面 的 形式 : 


N 
一 25 
= Xt, _, uz) (10.25) 
= v+N 
这 里 用 变量 上 的 波浪 线 代表 后 验 。 我 们 又 一 次 看 到 ， 指 数 族 分 布 的 充分 统计 量 
在 这 里 仍然 发 挥 了 核心 作用 ， 其 结果 使 得 贝 叶 斯 学 习 中 后 验 概率 分 布 的 计算 非常 人 


X > 


(B. Betraltaeh , eee EN , MANUHARA REMAS LEBS 
必然 性 ， 这 主要 是 为 了 满足 工程 上 的 方便 性 。 

同样 是 从 工程 上 来 说 ， 采 用 贝 叶 斯 方案 的 目的 是 为 了 对 模型 参数 进行 约束 ， 以 
提高 估计 的 稳健 型 。 因 此 ， 超 参数 的 选择 同样 十 分 关键 ， 因 为 超 参 数 的 取 值 决定 了 
模型 参数 的 自由 程度 。 在 实际 应 用 中 ， 可 以 根据 一 些 领域 知识 和 经 验 来 设 定 超 参数 
值 ， 但 是 这 样 的 方法 有 两 个 问题 。 

(1) 当 模 型 过 于 复杂 ， 超 参数 数目 太 多 时 ， 不 太 可 能 都 根据 经 验 相对 合理 地 设 

( 2 ) 采用 这 种 主观 的 方式 设 定 超 参 数 ， 必 然 导 致 在 一 个 固定 的 数据 集 上 参数 估 
计 的 结果 会 随 着 主观 超 参 数 的 不 同 而 变化 ， 这 有 些 背 离 数 据 建 模 的 客观 性 。 因 此 ， 
有 必要 探索 一 种 数据 驱动 的 超 参 数 设 定 方 法 。 

2. 经 验 贝 叶 斯 

数据 驱动 的 超 参 数 决定 方法 中 ， 经 验 贝 叶 斯 的 方法 值得 大 家 注意 。 在 公式 16.23 
中 ， 右 边 的 分 母 ， 即 evidence， 是 将 模型 参数 积分 后 的 似 然 值 的 期 望 。 可 以 注意 
到 ， 在 似 然 值 和 先 验 部 分 的 形式 确定 的 前 提 下 ，evidence 仅 仅 是 先 验 部 分 的 函数 。 
从 概念 上 来 看 ， 如 果 把 evidence 认 为 是 超 参 数 对 应 的 似 然 值 ， 那 么 也 可 以 用 优化 
evidence ”的 方式 找到 最 优 的 超 参 数 。 这 种 根据 数据 来 确定 超 参 数 的 方法 就 称 为 经 
验 贝 叶 斯 ， 其 优化 问题 可 以 表示 为 : 


"IU A 
f] = arg max | | [»(Xi6)»(6;1n)a6; 
7 i=1 


由 于 是 根据 evidence 来 确定 超 参 数 ， 这 一 方法 框架 又 称 为 evidence 框 架 。 需 要 
说 明 ，evidence 框 架 除 了 能 够 用 于 确定 超 参 数 ， 同 样 可 以 用 于 在 若干 种 先 验 部 分 形 
式 中 作 选 择 ， 选 择 标 准 仍然 是 判断 各 种 分 布 的 evidence 的 大 小 。 上 式 中 还 有 一 点 
需要 特别 注意 ， 那 就 是 我 们 是 假设 i=1 ,… ,K 个 模型 共享 同一 个 先 验 分 布 。 从 后 面 


的 讨论 可 知 ， 只 有 当 K >1 的 时 候 ， 上 面 的 经 验 幢 叶 斯 问题 才 会 有 非 退 化 的 解 。 

在 公式 16.27 中 ，X 为 观测 量 , n 为 参数 ， 而 9 实际 上 是 隐 变 量 。 因 此 ， 最 直 
接 的 思路 仍然 是 使 用 EM 算法 “来 求解 。 当 p (x10 ) 为 指数 族 分 布 ， Mp (Oln ) 为 其 
共 轿 先 验 分 布 时 ， 对 应 的 EM 辅助 浮 数 可 以 写成 下 面 的 表达 形式 : 


K 3 
Q(n, n^) =$) p(8;|X ;, n”) In p(X ;, ;|\n) dd; 
i=1 "i 
Kp 
Xl p(0;|X ;, m? *) In p(0;|n)d0; + C (10.27) 
i=] " 8i 


Kp 
=> | vt6/ii  mp(inja6, +C 
iz1 "0i 
ite , CEXXEBRISU T Ae , ain eS FED AT 
~old 
为 ， 并 且 将 第 i 个 模型 的 后 验 超 参 数 记 为 ”hi ”。 仔 细 观 察 这 一 结果 ， 如 果 把 9 当成 数 


据 ，n 当 成 参数 ， 那 么 已 知 的 后 验 分 布 KOE “可 以 看 成 是 数据 的 


分 布 ， 而 Inp ( 8,[n ) 则 相当 于 参数 n 在 此 数据 集 上 对 应 的 似 然 值 。 于 是 ， 对 此 辅助 
国 数 的 优化 相当 于 是 在 此 数据 分 布 上 对 n 进行 最 大 似 然 估 计 。 又 由 于 p(8ln) 
也 是 指数 族 分 布 ， 其 最 大 似 然 估计 可 以 通过 充分 统计 量 得 到 。 该 经 验 贝 叶 斯 问题 的 
E-step 和 M-step 可 以 表示 成 下 面 的 形式 : 


N 
F-step: Xold Xold 4 > u(z;), gold "S yold +N 
I 


(10.28) 


K 
1 
M-step: (6,9 (0) ope = 7 2 (0,9(0)) pera 


k=! 
其 中 的 E- stepi E KAHA Caen? Reames , fUM-stepzé—7 7X 
于 n“ 的 方程 ， 此 方程 是 否 有 闭 式 解 与 具体 的 指数 族 分 布 形式 有 关 。 


10.4 统计 模型 分 布 式 优 化 框架 


在 上 面 介绍 的 一 些 统计 机 器 学 习 模 型 中 可 以 发 现 ， 指 数 族 分 布 及 其 充分 统计 量 
在 计算 流程 中 起 着 非常 关键 的 枢纽 作用 。 不 论 是 指数 族 分 布 的 最 大 似 然 解 、 指 数 族 
混合 分 布 的 最 大 似 然 解 ， 还 是 指数 族 分 布 的 贝 叶 斯 学 习 ， 如 果 采 用 MapReduce 的 计 
算 框架 ， 都 可 以 用 图 16-3 来 描述 。 
充分 ) 统计 量 


数据 Mapper Reducer 
( 计算 统计 量 ) ( 更 新 模型 ) 






图 16-3 指数 族 分 布 hapReduce 学 习 框 以 

从 这 一 计算 流程 可 以 看 出 ， 对 于 大 规模 数据 上 的 许多 机 器 学 习 计算 问题 ， 
MapReduce 是 一 个 可 行 的 选择 : 因为 在 机 器 之 间 交 换 的 数据 只 是 统计 量 或 者 充分 统 
计量 ， 其 空间 复杂 度 仪 仪 与 模型 的 参数 数目 有 天， 与 数据 的 多 少 并 无 直接 关系 。 不 
过 ，MapReduce 的 方案 却 并 不 是 一 个 高 效 的 方案 ， 当 算法 需要 多 次 迭代 才能 完成 的 
时 候 ， 由 于 需要 在 每 次 ”Map 过程 中 重新 加 载 数 据 ， 使 得 整个 过 程 的 I/0 负 担 变 得 较 
重 ， 从 而 降低 整个 计算 过 程 的 效率 。 这 里 的 分 析 主 要 是 针对 上 面 指数 族 分 布 相关 的 
概率 估计 问题 ， 但 是 对 于 前 面 提 到 的 迭代 式 优化 问题 也 同样 成 立 。 

由 于 MapReduce 方案 在 面 对 迭 代 求 解 问题 时 效率 不 高 ， 我 们 应 该 考虑 其 他 蔡 


代 方 案 。 当 数据 的 规模 可 以 承受 时 ， 采 用 Spark 之 类 的 计算 框架 会 更 加 高 效 ， 可 以 参 
考 9.5.9 一 节 中 的 介绍 。 而 在 Hadoop 新 一 代 的 调度 器 YARN 的 基础 上 ，spark 可 以 直 
接 架 设 在 Hadoop 底 层 的 分 布 式 存储 HDFS 上 ， 这 使 得 数据 可 以 直接 在 Spark 的 计 
算 过 程 中 复 用 ， 并 没有 在 不 同 集群 之 间 大 量 传递 数据 的 开销 。 

本 书 由 [ePUBw.COM| ET , ePUBw.COM 提供 最 新 最 全 的 优质 
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第 11 章 合约 广告 核心 技术 


合约 广告 的 天 键 特征 是 广告 投放 的 价格 和 量 由 双方 协商 约定 。 合 约 广告 的 最 初 
形式 是 按 广告 位 售卖 的 CPT 广告 ， 而 这 样 的 CPT 广告 排 期 系统 并 不 是 一 个 个 性 化 系 
统 ， 技 术 实 现 上 相对 简单 。 不 过 ， 在 实际 的 媒体 广告 投放 中 ， 经 常会 遇 到 ”CPT 广告 
与 其 他 服务 器 决策 的 动态 广告 混合 的 情形 ， 并 需要 处 理 动态 广告 返回 失败 时 的 防 天 
窗 问 题 。 本 章 将 会 介绍 这 样 一 个 混合 排 期 系统 的 决策 框 染 。 
合约 广告 的 重点 形式 是 按 指定 受众 购买 的 、 按 CPM 计 费 的 展示 量 合约 广告 。 展 示 
合约 广告 的 投 送 系统 称 为 担保 式 投 送 系统 。 它 依赖 于 受众 定向 、 流 量 预 测 、 点 击 
率 预测 这 三 项 基本 技术 ， 并 来 用 在 线 分 配 的 方式 完成 实时 决策 。 由 于 受众 定向 和 点 
击 率 预测 的 重要 程度 已 经 超出 了 合约 广告 的 范畴 ， 我们 会 在 后 续 的 章节 中 陆续 介 
绍 。 而 在 线 分 配 问 题 ， 即 在 一 组 合约 量 的 约束 条 件 下 ， 对 每 个 在 线 到 达 的 展示 作 投 
放 决 策 ， 以 优化 某 效果 目标 这 一 问题 ， 将 是 本 章 介绍 的 重点 技术 。 

担保 式 投 送 的 决策 逻辑 比较 复杂 ， 而 且 在 目前 竞价 广告 为 主 的 市 场 环境 中 显得 
有 些 过 时 。 然 而 ， 此 间 题 的 研究 却 对 广告 中 广泛 存在 的 “ 量 的 约束 下 优化 效果 ”这 
一 根本 诉求 给 出 了 重要 的 框架 ， 而 这 一 框架 在 各 种 市 场 形 仿 中 都 有 具体 的 表现 形 
式 ， 比 如 后 面 章节 中 将 介绍 的 ADX 中 的 询 价 优化 间 题 等 。 因 此 ， 我 们 希望 能 从 两 个 方 
面 介 绍 此 问题 的 一 般 性 思路 : 一 是 在 未 来 流量 分 布 未 知 的 情形 下 ， 如 何 估计 在 绪 分 
配 算法 的 极限 性 能 ; 二 是 在 根据 历史 数据 能 进行 相对 合理 的 流量 预测 的 情形 下 ， 如 
何 利用 这 些 预测 搭建 一 个 实用 的 在 线 分 配 系统 。 

按 CPM 售 卖 的 合约 广告 除了 上 述 的 核心 算法 ， 还 有 两 项 广泛 应 用 的 广 持 技术 ， 即 
流量 预测 和 频次 控制 。 其 中 流量 预测 是 在 线 分 配 的 基础 ， 也 是 后 面 竞 价 广告 系统 中 
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广泛 使 用 的 功能 。 有 多 种 流量 预测 的 方法 ， 本 章 将 介绍 一 种 基于 信息 检索 技术 的 方 
案 。 而 频次 控制 则 是 广告 主 为 了 展示 的 有 效 性 提出 的 控制 性 要 求 。 关 于 这 两 项 技术 
的 业务 背景 和 常用 的 技术 方案 也 将 在 本 草 中 介绍 。 
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对 于 按 CPT 绪 算 的 广告 位 合约 ， 媒 体 一 般 采 用 广告 排 期 系统 来 管理 和 执行 。 广 告 
排 期 系统 与 我 们 后 面 要 讨论 的 各 种 广告 系统 都 不 同 ， 因 为 它 并 不 是 一 个 个 性 化 系 
统 ， 也 不 太 需 要 服务 器 新 的 动态 决策 。 广 告 排 期 系统 的 一 般 技术 方案 是 将 广告 素材 
按照 预先 确定 的 排 期 直接 插入 媒体 页 面 ， 并 通过 内 容 分 友 网 络 ( Content Delivery 
Network , CDN ) 加 速 访问 。 这 样 可 以 使 得 广告 投放 延迟 很 小 ， 也 没有 服务 端的 压力 
和 开销 。 

广告 排 期 系统 需要 注意 的 技术 环节 是 在 与 其 他 动态 广告 相 混 合 投放 时 的 调度 策 
略 。 由 于 广告 位 合约 的 方式 不 需要 企 服务 器 端 计 算 ， 因 此 在 混合 投放 时 ， 要 充分 考 
虑 这 一 特点 ， 尽 可 能 地 减少 服务 器 的 负载 。 另 外 一 个 相关 的 问题 就 是 当 一 些 横幅 广 
告 位 上 没有 广告 位 合约 ， 需 要 用 其 他 服务 器 动态 决策 的 广告 补足 时 ， 由 于 服务 器 可 
能 出 现 超时 或 其 他 错误 导致 广告 未 能 返回 ， 那 么 也 需要 在 页 面 上 展示 一 个 默认 广告 
防止 出 现 广 告 位 的 空 日 ,这样 的 广告 称 为 防 天 窗 广告 。 防 天 窗 广告 由 于 需要 在 服务 
器 不 工作 的 情形 下 补 位 ， 因 此 也 应 该 放 在 CDN 上 实现 。 下 面 详细 介绍 这 类 混合 投放 时 
的 决策 逻辑 。 

排 期 与 动态 广告 混合 系统 

对 一 个 广告 位 合约 与 动态 广告 混合 投放 的 系统 来 说 ， 需 要 同时 考虑 CPT 广告 和 防 
天 窗 广告 的 投放 人 逻辑 。 我 们 以 ”Web 页面 上 的 广告 投放 为 例 来 描述 这 一 调度 过 程 ， 此 
过 程 的 示意 图 如 图 11-1 所 示 。 
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图 11-1 排 期 与 动态 广告 混合 投放 决策 逻辑 

(1) 首先 ， 前 端的 广告 位 代码 从 CDN 上 获取 一 个 默认 广告 素材 以 及 标示 此 广告 
是 优先 的 CPT 广 告 还 是 防 天 窗 广 告 的 参数 。 

( 2 ) 根据 上 述 参 数 ， 如 果 CDN 上 获得 的 是 一 个 CPT 广 告 ， 那 么 直接 将 素材 泻 染 
在 页 面 上 即 可 。 

(3) 如 果 CDN 上 获得 的 是 一 个 防 天 窗 广告 ， 则 优先 向 广告 投放 机 友 送 请 求 ， 如 
果 在 指定 延迟 时 | 间 内 有 广告 返回 ， 则 将 其 泻 染 在 页 面 上 。 

(4) 如 果 服 务 器 在 指定 延迟 时 间 内 没有 广告 返回 或 友 生 其 他 错误 ， 则 将 从 CDN 
里 得 到 的 防 天窗 广 告 泻 染 在 页 面 上 。 

可 以 很 容易 地 验证 ， 只 要 CDN 不 友 生 错误 ， 这 样 的 系统 可 以 保证 不 会 出 现 广 告 位 
上 的 天 窗 。 同 时 ， 由 于 我 们 对 广告 位 合约 直接 透 过 前 端 投放 ， 在 这 部 分 流量 上 避免 
了 访 间 服务 器 市 来 的 延迟 ， 因 此 CPT 广告 的 效果 可 以 得 到 较 好 的 保证 。 实 际 的 排 期 和 
动态 广告 混合 系统 ， 由 于 有 和 轮 播 模式 的 存在 和 地 域 定向 S 的 需求 ， 会 比 上 述 的 逻辑 更 
加 复杂 一 些 ， 不 过 没有 原理 上 的 差异 。 


虽然 本 书 的 重点 是 讨论 各 种 基于 受众 定向 的 动态 广告 系统 ， 但 是 读者 需要 了 
解 ， 往 往 上 面 这 样 的 排 期 调度 系统 是 媒体 投放 展示 广告 的 基础 系统 ， 而 各 种 动态 广 
告 产品 的 接 入 则 统一 在 步骤 2 中 进行 。 


11.2 HIREA 


与 展示 量 合约 对 应 的 广告 系统 称 为 担保 式 投 送 (Guaranteed Delivery , GD) 
系统 。 在 展示 量 合约 这 样 的 交易 结构 中 ， 只 要 合约 都 被 满足 ， 系 统 的 收 蔓 就是 一 定 
的 ， 于 是 公式 2.2 中 的 优化 目标 变 成 了 常数 。 不 过 ， 这 一 系统 多 了 合约 市 来 的 一 组 量 
的 约束 条 件 ， 因 此 变 成 了 一 个 带 约束 优化 问题 。 天 于 此 问题 的 具体 描述 和 解法 将 放 
在 后 面 的 在 线 分 配 部 分 中 介绍 。 有 了 时， 展示 量 合约 还 会 约定 投放 量 未 达到 时 的 您 
罚 ， 在 这 种 情况 下 ， 目标 不 再 是 一 个 常数 ， 不 过 这 仍然 可 以 用 在 线 分 配 的 一 般 框架 
来 解决 。 

担保 式 投 送 系 统 的 整体 架构 如 图 11-2 所 示 。 在 此 系统 中 ， 在 线 投放 引擎 接 收 用 
户 触 帮 的 广告 请 求 ， 根 据 用 户 标 签 和 上 下 文 标签 找到 可 以 匹配 的 广告 合约 ， 然 后 由 
在 线 分 配 模 块 决定 本 次 展示 投放 哪个 广告 。 完 成 决策 后 ， 将 展示 和 点 击 日 志 送 入 数 
据 高 速 公 路 。 这 些 日 志 一 方面 进入 离线 分 布 式 计算 平台 以 后 ， 通 过 日 志 的 整理 ， Se 
成 合约 的 计划 ， 即 确定 在 线 分 配 算法 的 参数 ， 表 将 分 配方 案 送 给 线 上 投放 机 使 用 ; 
另 一 方面 ， 日 志 也 送 到 流 计算 平台 ，, ROTTEN , 再 对 索引 进行 快速 
调整 。 可 以 看 出 ， 这 一 系统 的 核心 技术 是 在 线 分 配 的 算法 策略 与 执行 过 程 。 

由 于 担保 式 投 送 需要 用 到 人 群 标签 或 上 下 文 标签 ， 因 此 在 广告 检索 的 过 程 中 也 
需要 用 到 用 户 标签 ( user attribute) 和 页 面 标签 (page attribute ) 这 两 个 标 
签 库 ， 由 于 标签 的 生成 过 程 与 担保 式 投 送 本 身 的 关系 不 大 ， 我 们 将 放 在 后 面 受众 定 
向 技术 部 分 集中 讨论 。 

担保 式 投 送 需 要 用 到 的 核心 技术 ， 最 重要 的 就 是 在 线 分 配 。 关 于 在 线 分 配 ， 我 


们 将 在 下 面 用 专门 的 章节 介绍 。 除 了 在 线 分 配 以 外 ， 担 保 了 式 投 送 还 有 另外 两 项 主要 
的 支持 技术 : 流量 预测 和 频次 控制 |。 
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图 11-2 担保 式 投 送 广告 系统 架构 示意 
11.2.1 流量 预测 
在 展示 量 合约 广告 中 ， 流 量 预 测 * 是 一 项 支持 技术 ， 它 对 于 在 线 分 配 的 效果 至 
关 重 要 。 除 此 以 外 ， 在 广告 网 络 中 ， 一 般 来 说 也 需要 根据 定向 条 件 和 出 价 估计 广告 
展示 量 ， 以 辅助 广告 主 进 行 决 策 。 因 此 ， 流 量 预测 是 一 项 在 计算 广告 中 广泛 使 用 的 


技术 。 

流量 预测 的 问题 可 以 描述 为 : 给 定 一 组 受众 标签 组 合 以 及 一 个 eCPM AYE , 
估算 在 将 来 某 个 时 间 段 内 符合 这 些 受众 标签 组 合 的 条 件 、 并 且 市 场 价 在 该 eCPM 阅 值 
以 下 的 广告 展示 量 。 这 里 的 eCPM 阅 值 主要 是 用 于 竞价 广告 系统 中 ， 目 的 是 了 解 在 
某 出 价 水 平 下 的 流量 情形 。 对 于 展示 量 合约 式 广 告 来 说 ， 这 个 阅 值 是 不 需要 的 ， 或 
者 为 了 工程 上 一 致 ， 将 该 国 值 设 为 一 个 很 大 的 弟 数 。 

流量 预测 一 般 的 方法 其 实 并 不 是 预测 ， 而 是 根据 历史 数据 的 统计 来 拟 合 未 来 的 
流量 。 当 然 ， 也 可 以 引入 时 间 序 列 分 析 的 方法 ， 从 流量 在 时 间 轴 上 的 规律 预测 未 来 
某 个 时 间 段 的 流量 ， 这 主要 适用 于 需要 短 时 预测 的 场景 ， 对 广告 业务 来 说 并 不 十 分 
必要 。 因 此 ， 此 节 将 主要 介绍 根据 历史 数据 统计 的 方法 。 用 统计 的 方法 解决 流量 预 
测 间 题 ， 工 程 上 的 主要 挑战 在 于 ， 给 定 的 受众 标签 组 合 可 能 性 非常 多 ， 不 可 能 将 所 
有 这 些 组 合 都 预先 做 好 统计 。 可 行 的 思路 是 将 其 视 为 一 个 反 向 检索 的 问题 : 在 一 般 
的 广告 检索 问题 中 ， 索 引 的 文档 是 广告 a， 而 查询 是 (u,c) 上 的 标签 ; 而 在 流量 预 
测 问 题 中 ， 索 引 的 文档 由 广告 “a 变 成 了 每 次 展示 ， 而 文档 的 内 容 即 是 这 次 展示 上 的 
(u, c) 上 的 标签 ， 而 查询 由 ( u，c ) 上 的 标签 变 成 了 广告 设置 的 受众 条 件 。 可 以 
看 出 ， 这 两 个 问题 是 对 偶 的 ， 可 以 用 类 似 的 技术 方案 来 解决 。 

对 比 广告 检索 问题 ， 流 量 预测 的 检索 问题 要 简单 一 些 : 首先 (u,c) 供给 节 
点 不 存在 布尔 表达 式 描述 ， 而 是 简单 的 特征 集合 ; 另外 ， 流 量 预 测 的 大 多 数 应 用 场 
景 对 实时 性 的 要 求 都 不 算 高 ， 例如， 在 吝 价 系统 辅助 决策 时 ， 秒 级 的 响应 完全 可 以 
满足 要 求 ， 这 比 起 线 上 广告 检索 毫秒 级 的 要 求 显然 要 低 得 多 。 用 反 向 检索 的 方案 来 
进行 流量 预测 ， 主要 包括 以 下 几 个 步骤 。 

(1) 准备 文档 。 将 历史 流量 中 ，( u，c ) 上 的 所 有 标签 的 展示 合并 为 一 个 供给 
节点 i， 并 统计 其 总 流量 s, 以 及 这 部 分 流量 上 eCPM 的 直方 图 hist,。 这 样 的 每 个 供给 
节点 作为 流量 预测 反 向 索引 的 一 篇 文档 。 


(2) 8/7385]. Wb soe AS TOUS D RUE V BSIHER S] , 文档 的 terms 即 


为 此 供给 节点 (u, c) 上 的 所 有 标签 。 同 时 ， 在 索引 的 正 排 表 部 分 记录 s， 和 
hist, 


(3) 查询 结果 。 对 一 条 输入 的 广告 a， 将 其 限定 的 标签 条 件 作为 查询 ， 得 到 所 
有 符合 条 件 的 供给 节点 的 集合 。 

( 4 ) 估算 流量 。 遍 历 上 一 步 得 到 的 每 个 供给 节点 ， 对 于 某 个 供给 节点 i， 首 先 
计算 其 与 该 广告 a 的 eCcPM 即 r(a,u，,c,)=hM(a，,u,，,c,)bid， 然 后 根据 相 
应 的 ecPM 直方 图 hist, 计算 a 能 获得 的 流量 。 这 样 ， 就 可 以 估算 出 a 在 出 价 bid, 情 
形 下 近似 能 获得 的 流量 。 

基于 反 向 索引 的 流量 预测 方法 如 图 11-3 所 示 。 实 际 操作 过 程 中 ， 由 于 历史 广告 
投放 日 志 可 能 流量 非常 大 ， 将 所 有 的 供给 节点 都 建立 索引 规模 上 是 无 法 承受 的 。 当 
然 ， 实 际 上 我 们 也 并 不 需要 这 样 做 ， 在 流量 预测 误差 允许 的 范围 内 ， 我 们 可 以 在 上 
面 的 第 1 步 和 第 2 步 之 间 加 一 个 米 样 的 过 程 ， 将 索引 中 的 供给 节 扣 的 数量 控制 在 
合理 的 规模 。 

供给 节点 标签 展示 量 
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反 向 索引 eCPM 直 方 图 


图 11-3 基于 反 向 索引 的 流量 预测 示意 
11.2.2 频次 控制 

频次 ， 指 的 是 某 个 用 户 在 一 段 时 间 内 看 到 某 个 或 某 组 广告 的 曝光 次 数 。 关 于 频 
次 对 广告 效果 的 影响 ，Herbert E.Krugman 博士 在 1972 年 提出 了 著名 的 “三 打 理 
i£" (three hit theory) '" :第 一 次 ,刺激 消费 者 试 着 了 解 信息 ， 去 问 “ 这 个 广 
告 是 什么 ?” | 第 二 次 ， 和 刺激 消费 者 去 评 量 ， 去 问 “ 广 告 内 容 是 什么 ? ” “我 曾经 
看 过 这 个 广告 吗 ?” ; 第 三 次 ， 消 费 者 接触 到 广告 时 会 回忆 并 开始 逃离 广告 。 三 次 
足以 对 消费 者 产生 作用 。 这 个 理论 对 广告 投放 的 效果 有 重要 的 指导 意义 ， 但 是 主要 
适用 于 传统 广告 ， 并 且 是 假设 用 户 已 经 顺利 通过 了 关注 阶段 。 对 于 互联 网 广告 ， 技 
术 手 段 能 够 记录 到 的 展示 ， 在 广告 位 置 差异 的 影响 下 ， 离 有 效 展示 有 相当 大 的 距 
离 ， 因 此 无 法 直接 套用 三 打 理 论 。 不 过 ， 一般 来 说 ， 随 着 某 个 用 户 看 到 同一 个 创意 
频次 的 上 升 ， 点 击 率 呈 下 降 的 趋势 这 一 点 是 可 以 被 验证 的 。 因 此 ， 在 按照 CPM 采 买 流 
量 时 ， 广告 主 有 时 会 要 求 根 据 频次 控制 某 个 用 户 接触 到 某 创意 的 次 数 ， 以 达到 提高 
性 价 比 的 目的 。 特 别 是 在 视频 广告 这 样 有 效 曝 光 程 度 较 高 的 广告 产品 中 ， 频 次 控制 
(frequency capping ) 的 意义 和 重要 性 尤为 显著 。 

图 11-4 给 出 了 某 广告 产品 中 实际 的 频次 与 广告 效果 ( eCPM ) 的 关系 曲线 。 将 这 
一 量化 结果 与 传统 广告 的 频次 理论 相对 比 ， 会 有 一 些 新 的 发 现 : 首先 ， 广 告 效果 随 
着 频次 的 上 升 呈 单调 的 下 降 趋 势 ， 而 并 非 在 三 次 时 达到 最 佳 ; 其 次 ， 频 次 较 高 的 广 
告 展示 效果 很 差 ， 因 此 ， 没 有 足够 的 广告 主 数量 ， 整 体 的 广告 效果 会 受到 相当 大 的 
限制 。 而 这 些 特点 在 竞价 广告 产品 中 更 加 容易 利用 ， 我 们 将 在 第 13 章 中 再 讨论 。 


eCPM(RMB) 





频次 
图 11-4 频次 与 广告 效果 的 关系 示例 

从 计算 的 角度 来 看 ， 频 次 是 使 得 公式 2.2 中 的 可 分 性 假设 不 成 立 的 最 主要 影响 因 
素 。 而 将 频次 作为 一 个 可 控制 的 定向 条 件 引入 广告 系统 后 ， 这 个 问题 虽 不 能 被 彻底 
决 ， 却 是 大 大 地 缓解 了 。 频 次 控制 的 需求 可 以 描述 成 ， 控 制 各 (a,u) 组合 在 一 
定 的 时 间 周 期 内 的 展示 量 。 应 该 说 ， 频 次 的 明确 要 求 主要 存在 于 展示 量 合约 广告 
中 ,而 在 ”CPC 结算 的 亮 价 广告 中 ， 可 以 将 频次 作为 CTR 预 估 的 特征 之 一 ， 从 而 隐 式 
地 对 广告 的 重复 展示 进行 控制 |。 


cui 
Tu 


频次 控制 有 客户 端 和 服务 器 端 两 种 解决 方案 。 客 户 端的 方案 就 是 把 某 个 用 户 对 
某 个 广告 创意 的 频次 值 记录 在 浏览 器 cookie 中 ， 投 放 决 策 时 再 把 这 个 值 传 给 服务 器 
来 决策 创意 。 这 一 方案 的 好 处 是 简单 易 行 ， 而 且 服 务 成 本 低 。 缺 点 是 扩展 性 不 好 , 
当 同 时 跟踪 多 个 广告 的 频次 时 ，cookie 可 能 会 变 得 很 重 ， 从 而 影响 广告 响应 时 间 ]。 
当然 ， 在 移动 应 用 广告 中 利用 SDK 做 前 端 投放 控制 的 场景 ， 客 户 端 的 方案 是 非常 好 的 
选择 。 服 务 器 端的 方案 是 在 后 台 设 置 一 个 专门 用 于 频次 记录 和 更 新 的 缓存 ， 当 广告 
请 求 到 来 时 ， 在 缓存 中 查询 候选 广告 的 频次 ， 并 根据 最 后 实际 投放 的 广告 更 新 频 
次 。 

频次 控制 用 到 的 缓存 ， 同 时 存在 高 并 发 读 和 高 并 发 写 的 要 求 。 而 且 随 着 频次 控 
制 粒度 要 求 的 不 同 ， 需 要 记录 的 频次 变量 数目 也 可 能 很 大 。 比 如 在 创意 级 别 控制 频 
次 束 比 在 广告 主 级 别 控制 频次 需要 更 多 的 缓存 容量 。 不 过 考虑 到 问题 的 实际 情况 ， 
这 一 缓存 实际 上 可 以 有 很 轻 量 级 的 方案 。 对 我 们 有 利 的 问题 特性 主要 有 以 下 两 点 。 

(1) 频次 存储 的 规模 是 有 上 界 的 。 如 果 我 们 在 某 个 时 间 周 期 内 控制 频次 ， 那 么 
上 述 的 频次 变量 忌 数 一 定 不 会 超过 这 个 时 间 周 期 内 的 展示 忌 数 ， 这 会 远 远 小 于 所 有 
可 能 的 (a, u) 的 组 合 数量 。 因 此 ， 缓 存 实际 的 存储 规模 没有 我 们 想象 的 那么 大 。 

(2) 当 用 (a,u) 的 组 合生 成 缓存 中 对 应 的 键 时 ， 实 际 上 并 不 需要 处 理 冲 
突 ， 因 为 从 业务 角度 来 说 ， 对 极 少 比例 的 冲突 组 合 上 的 频次 控制 不 准 是 可 以 接受 
的 。 因 此 ， 我 们 用 简单 的 MD5 之 类 的 散 列 方法 生成 键 束 可 以 ， 这 会 比喻 希 表 的 方案 要 
入 便 高 效 一 些 。 这 实际 上 也 反映 了 广告 系统 投放 过 程 弱 一 致 的 设计 原则 。 

由 于 频次 控制 有 上 述 这 些 特点 ， 并 且 存 在 高 并 友 读 写 的 要 求 ， 大 多 数 通 用 型 的 
NoSQL 存 储 方案 并 不 能 很 好 地 用 于 频次 控制 的 缓存 服务 ， 因 此 很 可 能 需要 自行 实现 一 
个 非常 轻 量 级 的 内 存 (key, value) ”方案 来 满足 需求 。 而 且 ， 就 大 多 数 广告 产品 
的 流量 规模 来 看 ， 此 缓存 完全 可 以 放 在 广告 投放 机 本 机 的 内 存 中 。 


11.3 在 线 分 配 


本 章 中 我 们 讨论 的 重点 是 展示 量 合约 广告 以 及 相应 的 担保 式 投 送 系 统 。 展 示 量 
合约 广告 的 优化 问题 与 公式 2.2 表达 的 一 般 问题 ， 主 要 区 别 在 于 合约 量 的 要 求 引入 
了 一 些 约束 条 件 ， 这 引出 了 在 线 分 配 间 题 。 

在 线 分 配 问题 指 的 是 在 通过 对 每 一 次 广告 展示 进行 实时 在 线 决策 ， 从 而 达到 在 
满足 某 些 量 的 约束 的 前 提 下 ， 优 化 广告 产品 整体 收益 的 过 程 。 很 容易 理解 ， 此 问题 
计算 上 最 困难 的 地 方 在 于 “在 线 ”， 也 融 是 在 信息 尚 不 全 面 的 时 候 作出 决策 ; 而 系 
统 上 最 困难 的 地 方 在 于 分 配 策略 需要 是 弱 状 态 的 ， 同 时 各 广告 投放 机 之 间 耦 合 程度 
也 要 尽量 低 。 

在 线 分 配 是 计算 广告 中 比较 关键 的 算法 框架 之 一 ， 它 适用 于 许多 量 约束 下 的 效 
果 优 化 问题 ， 而 这 实际 上 是 广告 业务 非常 本 质 的 需求 。 由 于 在 线 分 配 问题 的 重要 性 
超越 了 担保 式 投 送 本 身 ， 我 们 先 来 介绍 此 间 题 的 应 用 场景 与 算法 。 


11.3.1 在 线 分 配 问 题 


我 们 的 出 上 帮 点 仍然 是 公式 2. 2 的 计算 广告 核心 问题 。 此 问题 优化 的 是 一 组 广告 展 
示 上 的 利润 ， 而 在 线 分 配 问 题 进 一 步 引 入 了 量 的 约束 。 为 了 讨论 方便 ， 需要 先 对 公 
式 2.2 做 一 些 变化 ， 得 到 适合 于 描述 在 线 分 配 问题 的 市 约束 优化 问题 。 

1. 供 给 与 需求 二 部 图 

以 担保 式 投 送 为 代表 ， 可 以 看 出 在 线 分 配 问 题 有 两 个 主要 的 挑战 : 一 是 要 在 量 
的 约束 下 优化 效果 ; 二 是 要 实时 对 每 一 次 展示 作出 决策 。 直 接 在 这 两 个 要 求 下 优 
化 ， 会 使 得 求解 过 程 相当 困难 。 因 此 ， 在 在 线 分 配 问 题 中 ， 一 般 将 此 问题 简化 为 一 
个 二 部 图 (bipartite graph) 匹配 的 问题 。 这 里 的 “二 部 ” 指 的 是 代表 广告 库存 
的 供给 节点 ( 集合 记 为 ” I， 其 中 某 个 节点 代表 的 是 所 有 标签 都 相同 的 流量 库存 ) 和 
代表 广告 合约 的 需求 节点 ( 集合 记 为 A ) 。 


下 方 的 6 个 节点 为 供给 节点 ， 而 上 面 的 三 个 节点 为 需求 节点 。 如 果 革 个 供给 节点 的 受 
众 标签 能 够 满足 某 个 需求 节点 的 要 求 ， 就 在 相应 的 两 个 节点 间 建 立 一 条 连接 边 。 我 
们 把 这 个 二 部 图 记 为 6= (IUA,E ) ,其 中 E AIS 人 之 间 边 的 集合 ,并 用 
l(a) 表示 所 有 与 需求 节点 aEA 相 邻 的 供给 节点 的 集合 , 而 『 (i ) ”表示 所 有 与 
供给 节点 iEI 相 邻 的 需求 节点 的 集合 。 我 们 的 任务 就 是 求解 由 i EI 到 aEA 的 分 
配 比例 ， 使 得 满足 供给 方 和 需求 方 的 约束 的 同时 ， 某 个 与 广告 效果 相关 的 目标 函数 


达到 最 优 。 


{gender= 男 ， {geo= 广 东 ， {age=2, 
200 mille} 200 mille} 1, 000 mille} 


{gender= 男 ， {gender= 男 ， 


{gender= 男 ， qeo- Lili geo= 广 东 ， {geo= | | p a hs fage=?, 
vale age=2, age=2, aged, d e 300 mille] 
400 mille} 400 mille} 100 mille} 100 mille} 500 mille 





图 11-5 在 线 分 配 中 的 二 部 图 匹配 问题 示意 

二 部 图 中 的 供给 节点 有 时 为 一 组 标签 约束 下 的 流量 集合 ， 在 这 种 情况 下 ,用 s, 
表示 供给 节点 i 的 总 流量 ; 有 时 也 会 用 一 个 节点 代表 一 次 展示 ， 这 适用 于 不 假设 对 流 
量 有 预测 能 力 的 场景 或 者 需要 精细 区 分 每 次 展示 的 场景 下 。 

请 大 家 注意 ， 与 2.2 的 计算 广告 一 般 问 题 相 比 ， 这 样 的 二 部 图 结构 实际 上 假设 了 
在 同样 一 组 供给 节点 和 需求 节点 之 间 发 生 的 广告 展示 ， 其 目标 函数 或 回报 "是 没有 差 
别 的 。 这 虽然 不 够 准确 ， 但 却 是 更 直接 地 研究 在 线 分 配 算法 的 一 种 合理 近似 。 在 这 
一 近似 下 , rÈ (a,u, c) 组 合 的 肖 数 变 成 了 供给 节点 i 和 需求 节点 aBUERZX S, 15 


Rica ro ASA, M BGIRTERES TERES M ERA: , CECEXR BOSE VNB ERE BY, 
目标 函数 是 可 分 的 ， 这 一 目标 消 数 表示 为 如 下 的 形式 : 
Fis,€) — Se ELT) 

其 中 s, 为 供给 节点 i 的 总 供给 量 ，, 而 xx hn PRENTAR s， 分 配 
给 合约 a 的 比例 ， 这 融 是 在 线 分 配 问题 求解 的 变量 。 

3x ERNA E me, EDI X52. 2 的 一 般 广 告 问题 目标 大 有 不 同 , 
不 过 这 实际 上 是 通过 二 部 图 假设 简化 后 得 到 的 表示 。 另 外 ， 在 这 种 表达 中 ， 供 给 节 
点 的 数目 会 随 着 定向 条 件 的 增加 而 呈 几 何 级 数 上 升 ， 也 束 会 使 得 对 应 的 分 配 问 题 变 
得 过 于 复杂 而 无 法 有 效 求解 。 下 面 我 们 来 看 此 优化 问题 有 哪些 约束 。 

2 .需求 约束 与 供给 约束 

在 线 分 配 问 题 的 第 一 个 约束 条 件 是 分 配给 某 广告 合约 ”a 的 收益 要 至 少 等 于 其 约 
定 的 量 d， 这 个 约束 称 为 需求 约束 (demand constraint ) : 


p QioSitig S da, Va € A (11.2) 

其 中 q。 为 将 供给 节点 i 连接 到 需求 节点 a 的 单位 流量 惩罚 ， 其 具体 意义 将 
在 后 面 举例 说 明 。 简 单 起 见 ， 一 般 都 假设 这 一 需求 约束 是 线性 的 ， 实 际 上 这 也 已 经 
能 满足 所 有 常见 场景 中 的 需求 。 

实际 产品 中 常见 的 需求 约束 有 两 类 : 一 类 是 预算 、 服 务 成 本 等 的 上 限 要 求 ; B 
一 类 是 合约 量 的 下 限 要 求 。 在 后 一 种 情形 下 ，q,。 为 负数 ， 需 求 约束 实际 上 描述 的 是 
一 个 收益 项 的 下 界 。 

在 线 分 配 问题 的 另 一 个 约束 条 件 是 每 个 供给 节点 被 分 配 出 去 的 量 不 能 多 于 其 总 
流量 ， 这 个 约束 称 为 供给 约束 (supply constraint) ， 其 意义 很 容易 理解 。 供 给 


约束 可 以 表示 成 下 面 的 形式 : 
>. ER LE [11.3) 
ac€I'(i) 


3 .问题 框架 
根据 上 面 的 讨论 ， 从 公式 2. 2 定义 的 计算 广告 目标 出 友 ， 引 入 供给 约束 与 需求 约 
束 ， 得 到 下 面 的 在 线 分 配 优化 问题 框架 表示 : 


max ) (ae 本 ia ia 


S.t. $4, L, 1 
s.t Dover's DN L, Viel | 
(11.4) 


P oes Sif; € dg, Vac.AÀ 
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除了 供给 约束 和 需求 约束 ， 上 式 中 还 有 第 三 个 约束 ， 它 用 以 保证 分 配 变量 非 
负 。 公 式 11.4 是 一 个 比较 一 般 性 的 数学 表达 ， 不 仅仅 适用 于 GD 问题 ， 也 适用 于 其 他 
量 约束 下 的 在 线 分 配 问题 。 有 关 它 的 一 些 算 法 和 结论 也 不 仅仅 用 于 合约 式 广 告 系 
统 ， 在 后 面 介绍 的 竞价 广告 系统 或 广告 交易 市 场 中 也 有 着 广泛 的 应 用 。 

如 果 可 以 离线 对 公式 11.4 进行 决策 ， 那么 这 是 一 个 一 般 的 带 线性 约束 的 优化 
问题 。 然 而 在 广告 投放 实际 环境 中 ， 不 可 能 达到 全 局 最 优 ， 而 是 必须 对 每 次 广告 展 
示 马 上 作出 决策 ， 这 就 要 求 设计 一 种 比较 聪明 的 策略 ， 使 得 整体 流量 情况 尚 不 明朗 
时 ， 仍然 可 以 相对 合理 地 作出 决策 ， 而 最 终 目的 是 全 部 流量 上 的 分 配 结果 与 离线 最 
优化 的 结果 尽量 接近 。 


11.3.2 FARA MAS 


在 线 分 配 技术 并 不 仅仅 适用 于 GD 问题 ， 其 他 典型 的 问题 还 有 Adwords 问 题 、 展 
示 广 告 问 题 、 最 大 代表 性 分 配 (Maximal Representative Allocation , MRA ) ™ 


问题 以 及 广告 交易 平台 中 的 询 价 优化 问题 等 。 在 此 举例 介绍 GD 问题 和 Adwords 问 题 


的 具体 表达 ， 其 他 问题 还 会 在 本 书 的 后 面 遇 到 。 

1.GD 问题 

在 线 分 配 的 最 典型 应 用 融 是 ”GD ( 担保 式 投 送 ) 问题 。 在 此 主要 考虑 按 ”CPM 结 
算 的 市 场 。 在 GD 合约 的 情形 下 ， 由 于 按 CPM 售 卖 广告 在 所 有 合约 都 满足 时 ， 如 果 不 考 
虑 合约 a 未 完成 的 惩罚 ， 收 荔 是 一 定 的 常数 。 那 么 6D 的 优化 问题 可 以 写成 : 


max QC 


s.t. Pau. Vcl 
" = 35 ERN He 


(11.5) 
seran Silia 2 da, VacA 
foc 0, V(i,a) € E 
可 以 看 出 ，GD 问题 的 优化 目标 主要 在 于 更 好 地 满足 所 有 合约 的 要 求 ， 而 不 是 优 
化 eCPM。 有 时 ， GD 合约 在 未 达成 (under delivery ) 时 会 有 相应 的 惩罚 ， 在 这 种 
情形 下 ， 目 标 函 数 就 不 是 常数 了 ， 可 以 引入 惩罚 项 来 改写 上 面 的 问题 ， 使 其 仍然 在 
在 线 分 配 的 框架 内 ， 在 此 不 详细 描述 。 
GD 问题 的 两 个 约束 都 非常 容易 理解 : 供给 约束 的 含义 是 每 个 供给 节点 分 配给 所 
有 需求 节点 的 流量 比例 之 和 不 超过 1 ; 需求 约束 的 含义 是 每 个 需求 节点 被 分 配 到 的 流 
量 总 和 应 该 大 于 等 于 对 应 合约 的 展示 量 要 求 。 
2.AdWords 问题 
Adwords 问 题 ， 也 被 称 为 有 预算 约束 的 出 价 (budgeted bidder ) 问题 ， 讨 论 
的 是 在 CPC 结 算 的 竞价 广告 环境 下 ， 给 定 各 个 广告 主 的 预算 ， 整 体 化 市 场 曹 收 的 问 
题 。 在 这 种 情形 下 ， 公 式 11 .5 中 的 目标 函数 和 需求 约束 都 有 所 变化 ， 其 对 应 的 在 线 
分 配 问题 体现 为 如 下 的 形式 : 


ne ; -— Viasivia 
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(11.6) 
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为 了 便于 理解 ， 可 以 把 这 里 的 供给 节点 i 具体 想象 成 搜索 广告 中 的 一 个 关键 词 。 
于 是 ，9q, 代 表 的 是 将 关键 词 的 一 次 点 击 分 配给 广告 的 期 望 收 益 ， 即 广告 a 对 关键 词 
iN ; s 为 关键 词 i 的 总 点 击 量 ; 而 x,， 为 关键 词 i 分 配给 广告 a 的 流量 比 
例 。Adwords 问 题 的 优化 目标 是 整个 市 场 的 收入 最 大 化 ; 而 需求 约束 的 含义 是 每 个 
广告 主 的 花费 应 该 小 于 该 广告 主 的 预算 。 

研究 AdWords 问 题 的 目的 是 为 了 探讨 在 广告 主 有 预算 上 限 的 情形 下 ， 是 否 可 以 
通过 全 局 的 分 配 调整 影响 整个 市 场 的 收入 。 虽 然 对 这 一 问题 的 实际 意义 和 效果 ， 工 
业界 存在 着 不 同 的 看 法 : 在 自助 式 投放 中 ， 广 告 主 有 时 会 先 预 设 较 少 的 预算 ， 并 在 
预算 将 花 完 时 判断 是 否 要 追加 。 因 此 ， 在 系统 中 看 到 的 预算 并 不 是 一 个 强 约束 。 但 
E, 这样 的 思考 方式 以 及 在 线 分 配对 于 各 种 量 约束 下 优化 问题 的 框架 意义 是 值得 体 
会 的 。 


11.3.3 性 能 研究 


如 果 不 对 未 来 的 流量 分 布 做 假设 和 预测 ， 那么 在 线 分 配 的 效率 上 限 如 何 ， 什么 
样 的 策略 更 加 合理 呢 ? 虽然 这 样 极 端 情形 的 讨论 对 实用 系统 的 帮助 有 限 ， 但 这 一 极 
限 情形 的 研究 却 对 我 们 理解 问题 的 本 质 特点 和 算法 方向 有 指导 意义 。 

极限 性 能 研究 的 指标 主要 是 某 一 在 线 分 配 策略 的 有 效 性 。 所 谓 有 效 性 可 以 描述 


如 下 : 如 果 能 够 完全 确 知 所 有 的 流量 分 布 情况 ， 那 么 可 以 根据 全 局 的 信息 求 得 一 个 
分 配 的 最 优 解 ; 但 是 由 于 分 配 是 在 线 执行 ， 最 优 解 并 不 一 定 能 达到 ， 如果 某 种 在 线 
分 配 策 略 在 最 差 情形 下 能 够 达到 上 述 最 优 解 目标 遂 数 的 t 倍 ， 那么 我 们 就 说 这 一 分 配 
方案 是 1-competitive 的 。 显 然 ， 这 里 的 t+ 是 一 个 [0,1] 内 的 数 ， 也 就 是 该 分 配方 案 
有 效 性 的 度量 。 

公式 11.4 是 一 个 典型 的 带 约束 优化 问题 ， 根 据 第 16 章 介绍 的 最 优化 知识 ， 可 以 
应 用 拉 格 朗 日 乘 子 法 来 分 析 这 一 问题 。 公 式 11 .4 的 拉 格 朗 日 算 符 可 以 表达 为 : 


Driasitia+ ) Qi » Silia — Si t) Ba » (iaSiTia — da = ) "asit (11.7) 


(ia) i aET (i) ü iET (a) (ia) 
不 进行 预测 ， 把 每 次 展示 当 作 一 个 供给 节点 ， 则 有 s,=1， 于 是 上 了 式 的 对 偶 问 题 


为 : 
min 》 da Bo + ) Qj 
acA icI 


s.t. Da 十 Qi 2 Tia (11.8) 
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原 问题 的 每 个 约束 条 件 对 应 着 一 个 对 偶 变 量 。 在 参考 文献 [31] 中 ， 利 用 这 些 对 
偶 变量 ， 作 者 给 出 了 在 Free Disposal 前 提 下 ， 在 线 分 配 的 一 种 优化 方案 框架 。 该 
方案 有 如 下 的 几 个 步骤 。 

(1) 初始 化 每 个 需求 约束 的 对 偶 变量 B 一 8。 

(2) 当 一 次 展示 i 到 达 时 ， 令 ae 一 arg max, r, -B 取 得 最 大 值 的 广告 合约 a ( BD 
分 配给 收益 最 大 的 合约 ， 如 果 该 值 对 所 有 的 广告 都 为 负 ， 则 所 有 合约 都 不 需要 分 
B). 

(3) x,0=1,UR ”a 已 经 被 分 配 了 。” d.6 次 展示 ， 令 io 为 其 中 最 小 的 ， 并 将 


x00 设置 为 6。 

(4) 在 对 偶 问 题 中 ， 令 a,=r,.6-B.e ， 并 通过 一 定 的 更 新 规则 来 更 新 B.6。 不 同 
的 更 新 规则 对 应 了 不 同 的 分 配 算法 ， 也 相应 地 会 导致 不 同 的 分 配 性 能 

这 个 过 程 的 关键 在 于 两 点 : 一 是 第 2 步 实 际 上 是 把 展示 分 配给 最 难 满足 的 一 个 合 
约 ; 二 是 第 4 步 如 何 更 新 Be ， 即 如 何 重新 估计 需求 合约 的 满足 难度 。 参 考 文 献 
[31] ”中 对 几 种 典型 的 Bb@ 的 更 新 策略 进行 了 讨论 ， 并 且 给 出 了 一 种 有 效 性 为 
(1-1/e ) -competitive 的 分 配方 案 ， 实际 上 ， 可 以 证 明 这 是 在 线 分 配 问 题 可 以 达 
到 的 有 效 性 的 上 界 。 表 11-1 ”对 比 了 参考 文献 [31] 中 讨论 的 几 种 在 线 分 配 策 略 。 在 
几 种 Be 更 新 策略 中 ， 指 数 加 权 的 极限 性 能 最 佳 ， 而 且 1-1/e 被 证 明 是 所 有 分 配 算 
法 理论 上 能 达到 的 最 好 的 极限 性 能 

表 11-1 若干 在 线 分 配 策 略 的 对 比 


策略 有 效 性 
Ba 是 分 配给 a 的 前 da 个 高 权重 展示 中 最 低 的 权重 , WN a fk l 
贫 心 --competitive 
X ASH [的 | j 展 示 震 要 EMAR 权重 2 
B, By 是 分 配给 a | DET | da 个 [n EO EE 花椒 的 权 权重 的 算术 iy 均 如 果 1 
FUR "3 l --competitive 
分 配给 ü ioi EDF da ds Ba 是 这 些 | EN SEE 5 da 的 HHE 2 
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直观 地 理解 ，B， 可 以 对 应 于 将 一 个 新 的 展示 蔡 损 原 有 已 分 配给 a 的 展示 时 ， 被 
蔡 换 挥 的 收益 部 分 。 显 然 ， 当 合约 a 科 分 配 展示 少 于 d, R, B, 应 该 为 9， 而 上 面 的 研 
完 告诉 我 们 ， 按 照 已 分 配 的 权重 进行 指数 加 权 会 有 比较 好 的 极限 性 能 。 在 实际 的 工 
程 系 统 中 ， 不 可 能 不 利用 历史 流量 数据 来 进行 在 线 分 配 。 然 而 ， 上 面 的 研究 对 于 深 


入 理解 在 线 分 配 的 合理 策略 会 有 很 大 的 帮助 。 
11.3.4 实用 优化 算 ; 


假定 未 来 一 段 时 间 内 需要 投放 的 合约 是 已 知 的 ， 如 果 广 告 流量 的 分 布 在 各 个 循 
环 周期 内 是 近似 一 致 的 ， 那 么 在 线 分 配 的 问题 就 可 以 在 流量 预测 的 指导 下 进行 ， 这 


1. 和 直接 求解 的 原始 分 配方 案 
在 实际 的 工程 系统 中 ， 假 定 流量 的 分 布 是 平稳 的 ， 我 们 会 利用 历史 流量 数据 来 
拟 合 未 来 流量 s,， 把 在 线 分 配 转 化 成 离线 问题 ， 离 线 对 公式 11.4 进行 决策 。 这 是 


一 个 一 般 的 市 线性 约束 的 优化 问题 ， 当 优化 目标 为 线性 函数 或 二 次 国 数 时 ， 是 一 个 
标准 的 线性 规划 ( Linear programming ) 或 二 次 规划 ( quadratic 


programming ) 问题 ， 可 以 采用 相应 的 优化 工具 直接 求解 该 问题 。 当 所 求解 的 问题 
规模 较 小 时 ， 比 如 定向 标签 很 少 、 广 告 主 也 较 少 时 ， 求 解 过 程 也 很 简单 。 直接 求解 
的 Mat1ab 代 码 如 下 所 示 。 
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TAPPES ERAR, ATEARAHWEARE , HAT RHE Shee 
同 条 件 的 增加 而 呈 几 何 级 数 上 升 ， 需 求 节操 数 也 会 达到 | 数 干 个 ， 边 |E| 的 数目 会 在 百 
万 级 以 上 ， 这 区 使 得 对 应 的 分 配 问题 变 得 过 于 复杂 而 无 法 直接 有 效 求解 。 我 们 令 n 为 
变量 的 个 数 ( 正比 于 供需 二 部 图 中 边 的 数目 ”|E| ) ， 求 解 线性 规划 问题 的 经 典 算法 
SUP Ears ( 时 间 复 杂 度 为 n 的 多 项 式 级 别 ) 和 单纯 形 法 ( 时 间 复 杂 度 为 
0 ( n?^-n') ) 在 小 时 级 延迟 的 定期 更 新 求解 是 几乎 不 可 能 的 。 另 外 ， 这 样 直接 求 得 
的 解 参数 正比 于 |E| 的 数量 ， 规模 有 可 能 过 于 庞大 ， 在 线 上 投放 时 使 用 很 不 方便 。 
此 ， 我 们 有 必要 探索 更 新 效率 更 高 、 空 间 复杂 度 更 低 的 在 线 分 配方 案 。 

2 .基于 对 偶 算 法 的 紧凑 分 配方 案 

在 实际 的 广告 系统 中 ， 不 仅 要 考虑 离线 分 配方 案 规 划 时 的 复杂 度 ， 还 要 考虑 线 
上 的 快速 响应 。 模 型 的 分 配 人 策略 不 能 给 服务 器 市 来 内 存 和 计算 上 的 很 大 负担 ， 而 前 
述 原始 分 配方 案 中 求解 出 来 的 原 问题 的 方案 过 于 庞大 ( 变量 数 正比 于 |E| ) 。 因 此 , 
往往 需要 一 个 更 紧凑 的 分 配方 案 。 

除了 凤 凑 性 的 要 求 ， 如 果 分 配 策略 能 做 到 一 定 程 度 上 无 状态 ， 即 投放 策略 与 前 
面 的 投放 历史 无 关 ， 这 对 于 广告 投放 机 的 实现 非常 有 利 : 如 果 与 投放 历史 无 天 , 2 
台 广 告 投放 机 之 间 就 不 需要 频繁 进行 同步 以 完成 状态 更 新 ， 而 是 根据 预先 计算 好 的 
策略 进行 投放 即 可 ， 这 对 于 系统 的 稳健 性 和 扩展 性 非常 有 益 。 

在 线 分 配对 偶 问 题 的 解 不 是 紧凑 解 ， 其 变量 数目 正比 于 约束 的 数目 ， 包 括 供给 
约束 和 需求 约束 ， 前 者 变量 的 量 级 数 为 十 万 甚 全 百 万 二 万 ， 但 后 者 的 量 级 人 在 数 干 级 
别 。 为 了 分 配方 案 的 紧凑 性 ， 可 人 否 只 保留 需求 约束 对 应 的 对 偶 变 量 ， 通 过 数学 变换 
恢复 出 供给 约束 的 对 偶 变量 和 分 配 率 x 呢 ? 在 参考 文献 [73] 中 ， 作 者 就 给 出 了 
这 样 的 方案 ， 通 过 对 相应 对 偶 问题 的 K.K.T 条 件 的 分 析 ， 推 导 得 到 了 一 个 由 B 恢 复 a 
和 x 最 优 解 的 计算 方法 : 


Stig (Ba - ai) 21 (11.9) 


QaE (i) 


Ts =max et — Qia > Bk — x) (11.10) 


k 
由 于 B 的 维 数 正比 于 合约 数目 |A|， 远 远 小 于 x 的 维 数 (正比 于 |E| ) ,我 
们 把 这 样 的 方案 称 为 紧凑 分 配方 案 (compact allocation plan). 。 利 用 这 一 方 
法 ， 只 需要 在 一 部 分 历史 数据 上 求解 对 偶 问题 得 到 ca， 就 可 以 很 高 效 地 进行 在 线 分 
配 。 
下 面 的 Mat1ab 模 拟 实验 代码 描述 了 这 一 过 程 。 


ceo Oo 一 C» co RR o0 rn m 


Co BD BDO BS BO BDO BO DO DO LO WD m Re KX eX eK eS eS ee, e d 
So © GO -— D> CX 4 OC DHF CO CO COT C» Oo ui Q2 RD 5 co 


A Ime 

4 alpha COEKXTAUSBZY 

4 supplies ; 供给 节点 列表 

/| demands : 需求 节点 列表 

% supplyLinks : 满足 各 个 供给 节点 的 需求 节点 列表 

|  demandLinks : 满足 各 个 需求 节点 的 供给 节点 列表 

4 Out: 

4 beta : 供给 约束 的 对 偶 变量 

function beta = get_supply_dual (alpha, supplies, demands, supplyLinks, 


demandLinks) 
theta = get theta(supplies, demands, demandLinks) ; 


% 计算 供给 节点 的 对 偶 变 量 
beta = zeros(size(supplies)); 


for i = 1: length(supplies) 


tmp2 = sum(theta(supplyLinks{i})) ; 


tmp1 = tmp2 + sum(theta(supplyLinks{i}) .*alpha(supplyLinks{i}))-1; 


if(abs(tmp2)) < 1e-20 
beta(i) = 0; 

else 
beta(i) = tmpl / tmp2; 


end 


if beta(i) < 0 
beta(i) = 0; 
end 
end 


end 





还 原 原 问题 的 原始 解 x，: 


SS 


In: 
alpha ;需求 约束 的 对 偶 变 量 
beto : 供给 约束 的 对 侦 变量 
supplies : 需求 节点 列表 
demands ;供给 节点 列表 
supplyLinks : 满足 各 供给 节点 的 需求 节点 列表 
demandLinks : 满足 各 需求 节点 的 供给 节点 列表 
Out: 
T ;分 配方 入 


se se Te Te Te 22 Se se 


function x = dual2primal(alpha, beta, supplies, demands, supplyLinks ， 


demandLinks) 


theta = get theta(supplies, demands, demandLinks); 


numSupply = length(supplies); 
numDemand = length(demands); 
zeros(nunSupply, numDemand) ; 
for i = 1 : numSupply 
for j = supplyLinks{i} 
x(i, j) = max(0, theta(j) * (1 + alpha(j) - beta(i))); 
end 
end 


end 





在 实际 应 用 中 ， 由 于 使 用 所 有 历史 数据 求解 上 述 问题 规模 太 大 ， 需 要 对 数据 作 
一 些 采 样 以 便 更 高 效 地 得 到 分 配方 案 。 关 于 玉 样 的 方法 以 及 采样 以 后 该 问题 求解 的 


稳定 性 分 析 ， 参 考 文献 [73] 中 也 都 进行 了 详细 讨论 ， 有 兴趣 的 读者 可 以 进一步 探 


n 
o 


3 .综合 分 配方 案 SHALE 

前 述 的 基于 对 偶 算 法 的 紧凑 分 配方 案 ， 虽 然 在 线 分 配 时 确实 达到 了 紧凑 和 无 状 
人 态 的 特性 ， 但 是 求解 的 代价 仍然 较 高 。 在 SHALE 算 法 中， 作者 对 求解 对 偶 变 量 的 步 
又 进行 了 优化 ， 采 用 原始 对 偶 方 法 迭代 进行 求解 ， 每 次 运 代 的 过 程 中 改善 对 偶 解 。 
这 样 的 方法 ， 可 以 比较 高 效 地 求解 。 这 一 方法 的 Mat1lab 代 码 如 下 所 示 。 


toe 


Sera acm & 


1 


w 
^l 


PE SRR 


- 
ho 


E 
a 


supplies 
demands 
supplyLinks 
demandLinks 
N 
Out: 
alpha t 
beta z 
function [alpha, 
demandLinks , N) 


HH RR OG GM X 


需求 节点 列表 

供给 节点 列表 

满足 各 供给 节点 的 再 求 节 , 上 总 列表 
满足 各 需求 节点 的 供给 节点 列表 
TAP ASK 


需求 约束 的 对 偶 变 对 
HES $5 Rag sd dE SE 


beta] = shale (supplies, demands, supplyLinks, 


theta = get_theta (supplies, demands, demandLinks); 


alpha = zeros(size(demands)); 


for X =- tH 


beta = get suppiy.dual (aipha, supplies, demands, supplyLinks, 


demandLinks); 


alpha = get_contract_dual(beta, supplies, demands, supplyLinks, 


demandLinks) ; 


M 


n: 
beta 
supplyLinks 
demandLinks 
supplies 
demands 

Out: 

aipha 4 


x 
x 
Az 
% 
x 
x 
x 
x 
* 


AeptiFEagep4mSdx x. Xd PRAISE HS 


> BIE RAS SES 


RLSM LSPS tg d xS s n 
满足 各 个 需求 节点 的 供给 节点 列表 
供给 节点 列表 


: 需求 节点 列表 


GRA 3c à 51 08 0E E 


function alpha = get_contract_daual (beta, supplies, demands, 


supplyLinks , demandLinks) 


theta = get_theta(supplies, demands, demandLinks) ; 


alpha = zeros(size (demands) ); 


for j = 1: length (demands) 


a = gum(supplies(demandLinksií:))); 


b = sum(supplies (demandLinks{j }) 


tmpl = demands(j) + theta(j) + b - theta(j) * a; 
tmp2 = theta(j) * a; 


if abs(tmp2) < ie-20 


alpha(j) = 
else 
alpha(j) = 
end 
end 


end 


0; 


tmpl / tmp2; 





.* beta(demandLinksijk)7; 


读者 可 以 自行 验证 ， 通 过 原始 对 偶 方 法 得 到 的 xc 和 前 述 直接 求解 的 x 一 致 。 在 得 
到 了 合同 的 对 偶 解 后 ， 之 后 的 算法 和 参考 文献 [73] 中 的 就 一 样 了 。 基 于 和 迭代 的 对 偶 
问题 求解 方法 节省 了 线 下 的 计算 时 间 ， 同 时 也 能 更 好 地 支持 插入 新 合同 时 的 增 量 求 
解 。 

4. 启 发 式 的 分 配方 案 HWM 

上 述 根据 历史 流量 数据 来 求解 紧凑 分 配方 案 的 方法 原理 上 可 行 ， 但 在 实际 的 工 
程 应 用 中 仍然 显得 有 些 复杂 ， 比 如 离线 仍 要 耗费 大 量 时 间 求 解 对 偶 解 。 我 们 希望 实 
现 一 种 快速 算法 ， 保 持 前 述 方法 紧凑 分 配 、 无 状态 的 特性 ， 效 果 上 也 能 近似 最 优 。 
前 述 方案 中 通过 合同 节点 的 对 偶 变 量 ( 是 否 容易 满足 约束 ) 即 可 恢复 最 优 解 ， 受 其 
讨论 启发 ， 我 们 可 以 发 现 ， 只 要 大 体 确定 好 每 个 合同 在 分 配 中 的 相对 优先 级 以 及 分 
配 时 得 到 某 次 展示 的 概率 ， 就 可 以 构造 出 一 种 直觉 上 可 行 的 在 线 分 配方 案 。 高 水 位 
(High Water Mark, HWM) 算法 就 是 这 样 一 种 方案 ， 虽然 其 数学 上 不 是 完全 严 
谨 ， 但 是 由 于 根据 历史 数据 来 制定 分 配方 案 本 身 就 具有 相当 程度 的 近似 ， 因 此 其 实 
际 效果 也 相当 不 错 ， 又 加 上 工程 上 的 便利 性 ， 可 以 考虑 在 在 线 分 配方 案 中 采用 这 种 
算法 。 

HAM 分 配 规划 算法 的 关键 有 两 点 ， 一 是 根据 历史 流量 确定 每 个 广告 合约 资源 的 紧 
缺 程度 ， 进 而 得 到 分 配 优先 级 ; 二 是 根据 优先 级 确定 各 个 广告 合约 的 分 配 比例 。 优 
先 级 可 以 通过 可 满足 各 合约 的 供给 节点 总 流量 的 升序 排列 得 到 ， 而 在 确定 了 合约 的 
优先 级 之 后 ， 按 照 优先 级 依次 确定 各 合约 的 分 配 率 以 满足 其 流量 要 求 。 下 面 的 
Mat1lab 代 码 描述 了 HWM 离 线 制定 分 配 计 划 的 算法 。 


RCM OO =] OC» CT & Co b2 omm 


CD CD 22 O2 Q2 rn bs bo bo bh ED bh b2 b2 NR — Ln e= e= RR RE ee 
| 了 Q2 2 co dO OO -105» Ct 4i C0 r2 — c D OOo-10c5» 1 4 WON n O 


A In: 

4 supplies 

4 demands 

A demandLinks 
h Out: 

4 orders 


A rates 


function [orders rates] = hwm plan(supplies, demands, demandLinks) 


供给 节点 列表 
需求 节点 列表 
满足 各 需求 节点 的 所 有 供给 节点 号 列表 


需求 节点 的 分 配 顺 序 
需求 节点 分 到 流量 的 比例 


demandNum = length(demands); 


| 生成 各 个 需求 节点 总 


供给 


eligibles = zeros(size(denands)); 


for i = 1:demandNum 


eligibles(i) = 


end 


sum (supplies (demandLinks{i})); 


| 把 需求 节点 按照 紧急 程度 (需求 -供给 比 ) 降序 排序 


[^, orders] = sort(demands ./ eligibles, ’descend’); 


L 按 分 配 顺 序 依次 处 理 各 需求 节点 


rates = zeros(size(demands)); 


remains - supplies; 


for d = orders 


for s = demandLinksíd) 


total remain 


= sum(renains (demandLinks(d))); 


if total_remain < demands(d) 


rates(d) = 
else 
rates(d) 
end 
remains(s) 
end 
end 


end 


1:0; 


demand(d) / total remain; 


remains(s) * (1 - rates(d)); 





根据 上 面 离线 生成 的 分 配方 案 ， 也 即 对 每 个 需求 节点 计算 出 来 的 分 配 优先 级 
(order ) 和 分 配 率 (rate) ， 可 以 很 方便 地 在 线 上 服务 中 对 每 次 展示 作出 简单 的 
决策 ,这 一 决策 的 过 程 如 图 11-6 所 示 。 

优先 级 


分 配 率 
线 上 投放 概率 





优先 级 2 5 ; 
分 配 率 0.35 0.15 0.25 
i | 


线 上 投放 概率 





图 11-6 HWM 算 法 在 线 分 配 万 案 示意 
HWM ”算法 在 线 分 配 的 基本 逻辑 是 : 根据 优先 级 依次 检查 各 个 符合 条 件 的 候选 ， 
直至 它们 的 累积 分 配 比例 超过 ”1 ， 然后， 按照 这 些 合 约 对 应 的 分 配 比 例 随机 选择 一 
个 合约 投放 ( 如 图 11-6 的 上 图 所 示 ) ; 如 果 所 有 的 候选 合约 总 的 分 配 比例 不 足 
1, 那么 以 1 减 去 其 总 分 配 比例 的 概率 请 求 其 他 剩余 流量 变现 的 广告 产品 ( 如 图 
11-6 的 下 图 所 示 ) 。 此 分 配 过 程 的 关键 思想 在 于 以 概率 和 优先 级 相配 合 的 方式 进行 
投放 决策 。 下 面 的 Mat1ab 代 码 搞 述 了 HWM 在 线 分 配 的 算法 。 


cO co — C» ot A CO» b rr 


& In: 
4 candidates: 满足 本 次 请 求 的 所 有 需求 节点 列表 
orders ， 所 有 需求 节点 的 分 配 优先 级 
rates : 分 配方 案 
Out: 
candId ;选中 的 广告 ， 如 果 返 回 -1， 则 将 此 次 展示 交还 Server， 再 从 其 他 渠道 查询 广告 
function candId = hwm serve(candidates, orders, rates) 
% 将 所 有 候选 按照 分 配 优先 级 排序 
candNum = length(candidates); 
[^, sortedIndex] = sort(orders(candidates)); 


candidates = candidates(sortedIndex); 


% 对 此 次 展示 产生 分 配 随机 数 


randValue = rand(); 


% 计算 累积 Serving Rate 的 截断 位 置 
accuRate = cumsun(rates(candidates)); 
candId = -1; 


for i = 1:candlNun 


if randValue < accuRate(i) 
candId = 
break; 
end 
end 


end 





11.4 延 舍 思考 


合约 与 竞价 混合 的 广告 产品 在 供给 方 很 常见 ， 除 了 本 章 HAM 算 法 中 给 出 的 启发 式 

方案 外 ， 是 否 还 有 更 加 系统 的 方案 来 优化 这 样 的 混合 产品 的 收入 ? 

本 书 由 [ePUBw.COM| 整理 , ePUBw.COM 提供 最 新 最 全 的 优质 
电子 书 下 载 ! ! ! 





要 提高 在 线 广告 的 效果 ， 受 众 定 同 是 最 重要 的 核心 技术 之 一 。 从 计算 广告 的 核 
心 问 题 ， 即 优化 一 组 流量 上 的 利润 这 一 挑战 来 看 ， 受 众 定向 技术 是 对 广告 (a ) FB 
P (u), EFX (c) 这 三 个 维度 提取 有 意义 的 特征 ( 这 些 特征 也 称 为 标签 ) 的 过 
程 。 由 于 上 下 文 标签 也 可 以 认为 是 即时 的 用 尸 兴 趣 ， 因 此 我 们 把 它们 统称 为 受众 定 
同 。 受 众 定 同 虽然 不 见得 是 计算 广告 中 最 困难 的 技术 ， 但 是 确实 是 在 线 广 告 、 特 别 
是 展示 广告 最 核心 的 驱动 力 之 一 ， 也 是 计算 广告 成 为 大 数据 典型 应 用 的 关键 。 

天 于 各 种 受众 定向 技术 的 原理 ， 应 该 在 第 2 章 广 告 有 效 性 模型 的 基础 上 进行 理 
年 。 一 般 来 况 ， 对 于 某 种 特定 的 定向 技术 ， 需 要 同时 关注 其 效果 和 规模 两 万 面 的 指 
示 ， 同 时 提供 覆盖 率 较 高 但 精准 程度 有 限 的 标签 和 那些 非 昔 精准 但 量 相对 较 小 的 标 
答 ， 这 有 利于 市 场 形成 竞争 的 环境 ， 也 为 竞价 广告 形成 元 分 竞争 提供 了 基础 。 

从 技术 框架 来 看 ,受众 定向 标签 可 以 分 成 用 尸 标 签 、 上 下 文 标签 和 广告 主 定 制 
化 标签 3 种 类 型 ， 其 实现 万 案 也 有 较 大 的 不 同 。 本 章 重 点 介绍 前 两 种 定向 技术 的 做 
法 ， 而 广告 主 定制 化 标签 属于 需求 方 定义 的 标 釜 ， 第 14 章 讲述 DsP 技 术 时 再 介绍 。 

上 下 文 定向 需要 对 广告 所 在 的 页 面 进行 分 析 ， 然 而 这 一 分 析 过 程 与 搜索 引擎 的 
胞 虫 有 很 大 的 不 同 。 结 合 广告 对 上 下 文 信息 的 需求 特点 ， 一 般 可 以 采用 一 种 半 在 线 
的 万 式 抓 取 和 分 析 页 面 ， 这 种 方式 避免 了 无 效 的 页 面 分 析 计 算 ， 又 能 够 快速 地 响应 
需要 分 析 的 页 面 。 

行为 定向 是 根据 用 尸 历 史上 的 网 络 访问 行为 对 用 户 打 标签 的 过 程 。 哪 些 网 络 行 
为 有 价值 是 挖掘 行为 数据 来 源 时 需要 考虑 的 问题 。 本 章 将 列举 一 些 业界 公认 的 有 价 
值 的 行为 数据 类 型 ， 并 给 出 使 用 多 种 数据 类 型 进行 行为 定向 的 基本 框架 。 由 于 海量 


> apt 


用 尸 的 原始 网 络 行为 的 数据 量 一 般 来 说 特别 巨大 ， 如 何 设计 非常 高 效 的 数据 组 织 
式 以 及 合理 的 访问 流程 对 于 行为 定向 的 实用 化 是 非常 关键 的 。 行 为 定向 一 般 采 用 
reachVZCTR 曲 绪 进 行 半 定量 的 评价 ， 而 此 曲 续 的 解读 方法 也 将 人 在 本 章 中 提 及 。 
实际 上 ， 受众 定 同 除 了 服务 于 广告 产品 外 ， 也 成 为 广告 市 场 中 相关 数据 产品 的 
关键 技术 。 而 这 些 数 据 产品 的 地 位 ， 也 随 着 实效 广告 的 友 展 变 得 越 来 越 重要 , 
此 ， 对 于 受众 定向 技术 的 探讨 ， 除 了 考虑 广告 产品 中 的 需求 之 外 ， 也 必须 考虑 数据 
产品 市 来 的 需求 。 与 受众 定向 直接 相关 的 数据 产品 主要 是 数据 交易 平台 和 是 数据 管 
理 平 台 。 这 两 种 产品 从 第 一 方 数据 和 第 三 方 数据 的 角度 出 发 ， 专 门 提供 数据 加 工 和 
交易 功能 ， 实 际 上 它们 是 受众 定向 技术 直接 产品 化 的 结果 。 本 章 也 会 简单 介绍 这 类 


数据 加 工 产品 的 技术 架构 。 





先 来 回顾 一 下 第 4 草 中 介绍 的 受众 定向 常见 方法 ( 参见 图 12-1 ) 。 总 体 上 看 ， 按 
照 计算 框架 的 不 同 ， 这 些 受 众 定 向 技术 可 以 分 为 以 下 三 种 类 型 。 

(1) 用 尸 标 签 ， 即 可 以 表示 成 t ( u ) 形式 的 标签 ， 这 是 以 用 己 历 史 行 为 数据 为 
依据 ， 为 用 尸 打 上 的 标签 。 

(2) 上 下 文 标签 ， 即 可 以 表示 成 t(c) 形式 的 标签 ， 这 是 根据 用 户 当 前 的 访 
问 行为 得 到 的 即时 标签 。 

(3) 定制 化 标签 ， 即 可 以 表示 成 t (a, u ) 形式 的 标签 ， 这 也 是 一 种 用 户 标 
签 ， 不同 之 处 在 于 是 针对 某 一 特定 广告 主 而 言 的 ， 因 而 必须 根据 广告 主 的 某 些 属性 
或 数据 来 加 工 。 
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图 12-1 常见 受众 定向 方法 一 哆 

以 上 各 种 定 同 中 ， 地 域 定向 、 频 道 定向 和 上 下 文 定向 属于 t ( c) 的 定向 方式 ; 
人 口 属性 定向 、 行 为 定向 属于 t ( u ) 的 定向 方式 ; 而 重 定向 和 新 客 推荐 ( look- 
alike) Wet(a,u) 的 定 同方 式 。 各 种 定向 的 标签 被 应 用 于 根据 用 尸 和 环境 信息 
选取 广告 候选 的 过 程 ， 因 而 对 广告 投 送 的 结果 有 比较 显著 的 影响 。t ( c ) 和 t (u) 
两 种 定向 方式 ， 一 个 是 根据 当前 环境 信息 ， 一 个 是 根据 历史 日 志 数 据 ， 因 而 在 技术 
方案 上 有 比较 大 的 区 别 。 下 面 将 对 这 两 种 方式 的 典型 代表 ， 即 上 下 文 定向 和 行为 定 
同 的 实现 进行 讨论 。 而 定制 化 标签 ， 即 t (a, u) 形式 的 标签 ， 变 成 了 完全 开放 的 标 
签 体 系 ， 其 标签 数量 不 表 是 常数 ， 而 是 有 可 能 与 广告 主 数目 成 正比 ， 因 此 最 适合 
在 程序 化 交易 的 环境 中 由 需求 方 直接 提供 ， 这 种 标签 将 在 第 14 章 讨论 DSP 时 再 
介绍 。 实 际 上 ， 我 们 还 需要 对 每 个 广告 也 打上 标签 t (a) ， 以 便 与 上 下 文 或 用 户 的 
标签 做 匹配 ， 广告 标签 一 般 有 两 种 常用 选择 : 一 是 直接 将 广告 投放 中 的 广告 主 、 广 
告 计划 、 广 告 组 、 关 键 词 等 直接 用 作 标 签 ， 二 是 用 人 工 的 方式 归 类 。 可 以 用 一 个 
(a,u, c) 上 的 三 维 坐 标 来 示意 以 上 的 几 种 标签 类 型 ， 参 见 图 12- 2。 






lin] 








性 别 





年 龄 ”收入 行为 
广告 主 p 

生计 划 A 广告 主 A 的 老 用 户 
告 主 B 的 潜在 用 户 


um. 1 广告 主 C 的 流失 用 户 
J AA \ 
1 t(a, u) p” 


要 » 
广告 关键 记 


&12-2 (a, u, c) 空间 中 的 标签 示意 
值得 注意 ， 受 众 定向 技术 并 非 按 照 上 述 的 分 类 严格 区 分 或 者 一 成 不 变 的 。 各 个 
广告 网 络 或 定向 技术 提供 商 能 够 接触 到 的 数据 类 型 和 规模 都 各 不 相同 ， 基 于 这 些 数 
据 本 身 进 行 深入 挖掘 ， 并 找到 对 广告 投放 有 意义 的 信号 ， 才 是 受众 定向 在 使 用 中 的 
重点 。 另 外 ， 上 面 的 分 类 主要 是 为 了 方便 技术 方案 的 讨论 ， 从 产品 角度 来 看 ， 以 上 
几 种 受众 定向 标签 对 于 广告 主 而 言 并 没有 本 质 区 别 。 


12,2 ETE] 


我 们 先 来 看 那些 归 类 为 t(c) ”的 受众 定向 万 式 。 这 样 的 定向 中 有 一 些 根 据 广 
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系统 定向 等 ; 另外 一 类 则 是 根据 上 下 文 页 面 的 一 些 特征 标签 ， 如 关键 词 、 主 题 、 分 
类 等 进行 定向 ， 我 们 重点 讨论 这 样 的 上 下 文 定向 技术 。 
抛 开 标签 体系 不 谈 ， 仪 从 打 标 签 的 方法 上 来 看 ， 上 下 文 定 向 主要 有 以 下 几 种 思 
路 。 
(1) 用 规则 将 页 面 归 类 到 一 些 频道 或 主题 分 类 。 例 如 ， 将 auto .sohu.com 下 的 
网 页 归 在 “汽车 ”这 个 分 类 中 。 这 种 方法 相对 简单 。 
(2) 提取 页 面 中 的 关键 词 。 这 是 在 将 搜索 引擎 的 关键 词 匹配 技术 推广 到 媒体 广 
告 上 时 自然 产生 的 ， 也 是 上 下 文 定向 的 基本 方法 。 
( 3) 提取 页 面 入 链 锚 文本 中 的 天 键 词 。 这 需要 一 个 全 网 的 爬虫 作文 持 ， 因 此 已 
经 超出 了 一 般 意 义 下 广告 系统 的 泄 畴 ， 有 兴趣 的 读者 可 以 参考 搜索 引擎 方面 的 有 天 
文献 。 
(4) 提取 页 面 流 量 来 源 中 的 搜索 关键 词 。 这 种 方法 除了 页 面 内 容 ， 也 需要 页 面 
访问 的 日 志 数 据 作 支 持 ， 从 技术 方案 上 看 更 接近 后 面 介绍 的 行为 定向 。 
(5) 用 主题 模型 将 页 面 内 容 映 射 到 语义 空间 的 一 组 主题 上 ， 这 样 做 的 目的 是 为 
了 泛 化 广告 主 的 需求 ， 提 高 市 场 的 流动 性 和 竞价 水 平 。 
在 以 上 各 种 思路 中 ， 关 键 词 提取 是 一 项 基础 技术 。 上 下 文 定 向 中 的 关键 词 提取 
可 以 按照 信息 检索 中 的 一 般 方法 ， 即 选取 页 面 内容 中 TF-IDF 较 高 的 词 作为 关键 词 
( 见 16.1.2 节 中 的 具体 介绍 ) ; 也 可 以 采用 需求 方 驱 动 的 思路 ， 从 广告 商 相 天 摘 述 
中 得 到 商业 价值 高 的 关键 词 表 和 IDF， 再 与 页 面 内 容 中 关键 词 的 TF 一 起 计算 TF -IDF 
来 选取 关键 词 。 当 能 够 得 到 比较 丰富 的 广告 信息 时 ， 如 运营 搜索 引擎 的 文本 广告 ， 
或 者 可 以 拿 到 广告 主 SEM 词 表 时 ， 后 一 种 方法 往往 更 加 有 效 。 
确定 了 对 上 下 文 页 面 打 标签 的 方法 以 后 ， 在 在 线 广告 投放 时 ， 页面 标签 系统 需 
要 对 广告 投放 机 查询 的 某 一 个 URL 快 速 返回 其 对 应 的 标签 。 复 杂 的 打 标 签 计算 是 不 可 


能 马上 完成 的 ， 不 过 在 广告 的 问题 中 ， 某 一 次 展示 时 标签 的 缺失 并 不 是 致命 性 的 。 
根据 广告 的 这 一 特点 ， 可 以 用 一 种 半 在 线 的 万 式 实 现 页 面 抓 取 和 打 标 签 的 逻辑 。 


12.2.1 HEA £ 


上 下 文 页 面 的 有 关 信 息 显 然 不 可 能 在 广告 请 求 发 生 时 实时 分 析 得 到 ， 那 么 是 否 
需要 一 个 类 似 于 搜索 引擎 代 虫 的 系统 来 预先 抓 取 呢 ? 对 于 广告 系统 来 说 ， 是 没有 这 
个 必要 的 。 因 为 页 面 信息 对 搜索 引擎 而 言 是 服务 的 主体 内 容 ， 而 对 广告 系统 而 言 ， 
只 是 锦上添花 的 补充 信息 ， 完 全 可 以 设计 一 个 更 轻 量 级 、 效 率 更 高 的 页 面 抓 取 系 
统 。 这 一 系统 的 设计 关键 是 不 作 任 何 离线 抓 取 ， 而 在 在 线 服务 产生 实际 需求 后 才 尽 
快 抓 取 ， 我们 把 它 叫 作 半 在 线 ( near- line ) 的 抓 取 系统 。 
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页 面 标签 缓存 
图 12-3 上 下 文 定 向 半 在 线 抓 取 系统 示意 

半 在 线 抓 取 系统 的 工作 原理 如 图 12-3 所 示 ， 系统 用 一 个 缓存 ( 如 9.5.7 节 中 
介绍 的 Redis ) 来 保存 每 个 URL 对 应 的 标签 ， 当 在 线 的 广告 请 求 到 来 时 进行 如 下 操 
作 。 

(1) 如 果 该 请 求 的 上 下 文 URL 在 缓存 中 存在， 那么 直接 返回 其 对 应 的 标签 。 

( 2 ) 如 果 该 URL 在 服务 中 不 存在 ， 为 了 广告 请 求 能 及 时 得 到 处 理 ， 当 时 返回 空 





的 标签 集合 ， 同 时 立刻 向 后 台 的 抓 取 队 列 中 加 入 此 URL， 这 样 在 较 短 的 一 段 时 间 ( 38 
常 为 秒 至 分 钟 量 级 ) 之 后 该 URL 就 被 抓 取 下 来 并 打上 标签 存 入 缓存 中 。 

( 3) 考虑 到 页 面 内 容 可 能 会 不 定期 更 新 ， 可 以 设置 缓存 合适 的 TTL (Time to 
Live ) 以 做 到 自动 更 新 标签 。 

这 样 的 方案 有 以 下 的 两 点 好 处 。 首 先是 在 线 缓存 的 使 用 效率 非常 高 ， 仅 仪 那 些 
最 近 有 广告 请 求 友 生 的 URL 才 会 被 抓 取 ， 这 样 不 需要 耗费 大 量 的 爬虫 资源 去 抓 取 可 能 
根本 用 不 到 的 URL。 其 次 ， 因 为 只 抓 取 需要 的 页 面 ， 并 且 可 以 在 该 页 面 第 一 次 广告 请 
求 后 很 快 得 到 页 面 标签 ， 页 面 的 信息 覆盖 率 就 会 很 高 。 

半 在 线 的 上 下 文 抓 取 系统 非常 典型 地 揭示 了 在 线 广告 系统 弱 一 致 的 业务 需求 : 
只 要 保证 大 多 数 的 广告 决策 最 优 正 常 ， 很 少量 的 次 优 决策 甚至 随机 决策 都 是 可 以 接 
受 的 。 充 分 把 握 这 一 特点 ， 对 于 设计 高 效率 、 低 成 本 的 广告 系统 至 关 重 要 。 


12.2.2 Emi: 


根据 上 下 文 内 容 进 行 受众 定向 的 粒度 可 以 精细 到 关键 词 ， 也 可 以 粗略 到 页 面 的 
类 型 。 除 了 这 两 种 极端 情况 ， 我 们 也 可 以 考虑 将 页 面 内 容 直 接 映射 到 一 组 有 概括 性 
意义 的 主题 上 ， 比 如 将 一 个 讲 编程 语言 的 博客 页 面 映射 到 “IT ”技术 ”这 样 的 主题 
上 。 如 果 把 页 面 视 为 一 个 文档 ,这 融 对 应 于 文本 主题 模型 ( topic model ) 的 研究 
问题 。 文 本 主题 异型 有 两 大 类 别 : 一 种 是 预先 定义 好 主题 的 集合 ， 用 监督 学 习 的 方 
法 将 文档 映射 到 这 一 集合 的 元 素 上 ; 一 种 是 不 预先 定义 主题 集合 ， 而 是 控制 主题 的 
总 个 数 或 聚 类 程度 ， 用 非 监督 学 习 的 万 法 目 动 学 习 出 主题 集合 以 及 文档 到 这 些 主 题 
的 映射 销 数 。 

广告 中 的 主题 挖掘 有 两 种 用 途 : 如 果 仅 仅 用 于 广告 效果 优化 的 特征 提取 ， 那 么 
监督 或 非 监 督 的 方法 都 可 以 ; 如 果 是 用 于 对 广告 主 售卖 的 标签 体系 ， 那 么 应 该 优先 
考虑 采用 监督 学 习 的 方法 ， 因 为 这 样 可 以 预先 定义 好 对 广告 主 有 意义 且 可 解释 的 标 


签 体 系 ， 对 售卖 会 有 很 大 帮助 。 
我 们 从 非 监督 方法 说 起 。 假 设 有 一 个 由 M 个 词组 成 的 词 表 以 及 一 组 文档 {d，d, , 


«nzN : 
,dd } ,采用 BoW 表 示 ,文档 d 表示 为 {x ,x ,x pt S PS ND 


其 中 x., 为 词 表 中 第 m 个 词 w 在 d, 中 对 应 的 词 频 或 TF-IDF 值 。 显 然 ， 一 般 情 况 下 ， 矩 阵 
X={x,},, 是 非常 稀疏 的 。 假 设 这 一 文档 集合 主题 模型 对 应 着 {1 ，2，… ,T} 这 一 组 主 
题 ， 我 们 的 目的 就 是 对 每 个 文档 得 到 其 在 这 些 主 题 上 的 强度 {z，，z。 a Za) 
usns) 

1.LSA 模型 

文本 主题 模型 最 初 的 解决 思路 是 对 上 面 文档 和 词组 成 的 矩阵 Xx 进 行 奇异 值 分 解 
(Singular Value Decomposition, SVD) ， 拷 到 这 一 乱 阵 的 主要 模式 ， 这 一 方 
法 称 为 潜在 语义 分 析 (Latent Semantic Analysis, LSA ) 2。LSA 的 分 解 过 程 昌 
以 表示 如 下 : 
X = (al ok) .diag(sb sk) (B1 Be) (12.1) 

其 中 为 矩阵 x 的 秩 , 1 2 52:77 2 SF 为 X 的 K 个 奇异 值 。 左 侧 的 矩阵 就 是 
将 潜在 语义 空间 中 的 主题 映射 到 某 个 文档 的 变换 矩阵 ， 而 右 侧 的 和 矩阵 则 是 主题 映射 
到 某 个 文档 词 表 中 基 个 词 的 变换 矩阵 。 最 多 可 以 得 到 的 主题 数目 等 于 矩阵 Xx 的 秩 K , 
不 过 一 般 情况 下 ， 都 会 选择 一 个 远 小 于 K ”的 主题 数目 用 来 建 模 。 当 选择 的 主题 数目 
JK 时 ， 实际 上 是 用 下 式 的 Xx 对 X 进行 了 近似 : 
X' = (o5 ar)’ - diag(si, ,s7): (8 Br) (12.2) 

这 等 价 于 令 所 有 的 St < t< 大 ) 都 等 于 8 ， 换 句 话说， 通过 这 种 方式 去 掉 
了 大 多 数 非 主 要 因素 的 影响 ， 从 而 得 到 了 整个 语义 空间 比较 平滑 的 描述 。 实 际 上 , 
从 上 述 的 SVD 分 解 结果 可 以 很 容易 得 到 每 个 文档 的 相应 主题 ， 请 参见 参考 文献 
[39]。 


根据 奇异 值 的 性 质 ， 我 们 知道 所 有 的 奇异 值 都 是 非 负 的 ， 但 是 ”LSA 得 到 的 两 个 
变换 和 矩 阵 不 能 保证 每 个 元 素 都 为 非 负 值 。 这 一 点 对 应 的 直 唤 意义 是 : 如 果 一 篇 文档 
有 某 个 主题 的 话 ， 可 能 该 文档 中 出 现 某 些 词 的 频次 的 期 望 值 为 负 。 这 一 点 ,直观 上 
并 不 十 分 容易 理解 ， 也 是 LSA 模 型 与 后 面 几 种 概率 文档 主题 模型 不 太一 样 的 地 方 。 

2.PLSI 模型 和 GaP 模型 

LSA ”方法 的 物理 意义 清楚 ， 也 有 成 熟 的 数学 工具 可 以 利用 ， 因 而 在 信息 检索 中 
得 到 了 比较 早 的 应 用 。 类 似 的 思想 也 可 以 用 概率 建 模 的 方式 来 表达 ， 这 就 是 概率 洪 
企 语义 索引 (Probabilistic Latent Semantic Indexing, PLSI ) 方法 c。 
PLSI 方 法 是 通过 对 文档 生成 的 过 程 进行 概率 建 模 来 进行 主题 分 析 。 这 一 模型 下 的 文 
档 生 成 过 程 可 以 表述 为 以 下 两 个 步骤 。 

(1) 根据 每 个 文档 4 生成 对 应 的 一 个 主题 z。 

(2) 给 定 主 题 ， 对 应 一 个 词 的 多 项 式 分 布 p (w|z, B) ， 据 此 生成 一 个 词 w, ; 
其 中 的 参数 B= (B, , -- , B, )^, 而 B。 即 为 当 z,=1 时 对 应 的 多 项 式 分 布 参 数 。 

PLSI 的 图 模型 如 图 12-4 所 示 。 





图 12-4 PLSI 概 率 图 模型 表示 
对 应 于 上 面 的 生成 过 程 ， 文 档 集 x 的 生成 似 然 值 可 以 表达 为 : 


In P(X) = ) P(d, )P(w, d, ) z: ) Tnm In { Pld) > Plwnlz)P(aldn) | 
=) n Tnm In I» Plunlz)P(dlz)P(2) | 


其 中 P (z) 为 多 项 式 分 布 Multi (z;w) ， 显 然 ， 这 也 是 一 个 混合 模型 的 形 


(12.3) 


式 ， 如 果 P (d,|z ) SUP ( w,|z ) 也 都 采用 多 项 式 分 布 形式 ， 就 是 PLSI 模 型 。PLSI 是 
概率 化 了 的 LSA 模 型 ， 可 以 将 P ( d,|z ) FOP ( w,| z ) 的 参数 分 别 对 应 于 LSA 中 的 两 个 
变换 矩阵。 这 两 个 模型 的 形式 很 相似 ， 不 过 物理 意义 有 所 不 同 : 在 PLSI 中 ， 变 换 矩 
阵 即 两 个 条 件 分 布 的 元 素 都 大 于 6， 即 在 给 定 一 个 主题 的 情况 下 ， 某 个 词 频 的 期 望 值 
不 会 为 负 ， 这 一 点 与 直觉 更 为 吻合 ， 也 更 加 合理 。 在 PLSI 模 型 下 ， 给 定 一 个 新 文 
档 ， 求 得 相应 主题 分 布 的 过 程 ， 请 参见 参考 文献 [39]。 

概率 模型 的 另 一 个 好 处 是 可 以 较 容易 地 实现 分 布 式 求解 。 可 以 看 出 ，PLSI 模 型 
是 16.3.2 节 中 介绍 的 指数 族 混 合 分 布 的 特例 ， 其 中 的 基本 分 布 为 多 项 式 分 布 。 

此 ， 可 以 直接 套用 EM 算法 以 及 对 应 的 MapReduce 或 MPI 迹 代 解 法 来 求解 。 而 LSA 模 型 
用 到 的 SVD 分 解 ， 需 要 一 定 的 技巧 才能 变 成 分 布 式 版 本 。 因 此 ，PLSI 比 LSA 在 实际 海 
量 数据 上 的 文档 主题 模型 更 具有 实用 优势 。 

PLSI 模 型 用 多 项 式 分 布 来 描述 主题 分 布 和 主题 中 的 词 分 布 ， 而 如 果 采 用 y BIA 
过 程 来 建 模 ， 即 假设 每 个 主题 生成 的 概率 用 独立 的 y 分 布 来 描述 ， 而 主题 中 某 词 的 
产生 服从 泊 松 分 布 ， 就 构成 了 y 泊 松 (GaP ) 模型 "。 从 变量 的 依赖 关系 上 看 ，GaP 
与 PLSI 很 相似 ， 只 不 过 两 者 中 条 件 分 布 的 指数 族 形 式 不 同 。GaP 与 PLSI 相 比 ， 由 于 
没有 将 每 个 文档 中 各 个 主题 变量 的 强度 进行 归 一 化 和 ， 因 此 对 内 容 相似 的 长 文本 和 短 
文本 的 概率 描述 是 不 同 的 ， 而 泊 松 词 产 生 概率 也 更 加 适合 离散 到 达 事 件 的 描述 ， 
而 GaP 模 型 在 主题 建 模 上 有 一 定 的 合理 性 。 不 过 ，GaP 模 型 的 EM 最 大 似 然 解 不 像 PLSI 
那样 有 简单 的 闭 式 更 新 公式 ， 在 参考 文献 [18] 中 ， 作 者 也 是 采用 一 种 近似 的 方法 来 
优化 ， 因 此 ， 这 一 模型 在 工程 中 的 实用 性 受到 了 一 定 的 限制 。 

3.LDA 模型 

16.3.3 节 中 介绍 的 贝 叶 斯 方法 也 可 以 应 用 于 PLSI 模 型 ， 这 样 做 的 目的 是 在 文档 
言 息 不 足 或 者 噪声 较 大 时 能 够 利用 贝 叶 斯 的 框架 对 结果 进行 有 效 的 平滑 。 这 一 思路 
也 就 产生 了 潜在 狄 利克 雷 分 配 ( Latent Dirichlet Allocation, LDA ) 方 法。 


在 LDA 方 法 中 ， 我 们 视 PLSI 模 型 的 参数 为 随机 变量 ， 对 于 某 一 篇 文档 ， 其 生成 过 程 
可 以 描述 如 下 。 

( 1) 根据 一 个 间 松 分 布 选择 文档 的 长 度 M。 

(2) 根据 w 的 先 验 分 布 Dir (o) 生成 w。 

( 3 ) 对 每 个 文档 中 的 词 me (1,--, M), ARH Multi (w ) 分 布 选择 一 个 主题 
Z ; 给 定 主 题 ， 对 应 一 个 词 的 多 项 式 分 布 p (wlz, P) ， 据 此 生成 一 个 词 w,。 

其 对 应 的 图 模型 如 图 12- 5 所 示 。 





12-5 LDA 概 率 图 模型 表示 


把 这 一 生成 过 程 与 ”PLSI 对 比 可 以 知道 ， 这 相当 于 ”PLSI 的 贝 叶 斯 版 本 ， 即 给 
Topic 的 分 布 w ”加 上 了 先 验 分 布 ， 而 先 验 分 布 采 用 的 是 共 四 形 式 ， 即 狄 利 克 雷 分 
布 。 当 然 也 可 以 对 主题 的 词 频 分 布 p 用 贝 叶 斯 的 方法 加 以 平滑 ， 这 实际 上 对 应 了 参 
考 文献 [10] 中 的 LDA Smoothing 方 法 。 从 16.3.3 节 中 的 介绍 可 知 ， 可 以 采用 经 
验 贝 叶 斯 的 方案 来 确定 这 两 个 超 参 数 a。 由 PLSI 模 型 到 LDA 模 型 对 文档 生成 过 程 的 描 
述 更 为 清晰 ， 而 根据 贝 叶 斯 学 习 的 作用 可 知 ，LDA 模 型 在 数据 噪声 较 大 或 者 每 个 文档 
内 容 较 少时 可 以 达到 比较 稳健 估计 的 效果 。 

如 果 采 用 经 验 贝 叶 斯 的 方法 来 确定 超 参 数 a， 那 么 此 时 原来 的 参数 Ww 就 变 成 了 隐 
变量 ， 优 化 的 参数 除了 Qa， 还 包括 参数 B， 优 化 的 目标 浮 数 可 以 写成 : 


p(wla, B) = | p(w|a) T EE) dw (12.4) 


由 于 PLSI ”模型 不 是 指数 族 分 布 ， 因 而 其 对 应 经 验 贝 叶 斯 模型 的 解 不 能 通过 


EM 方法 得 到 闭 式 解 ， 而 是 需要 采用 变 分 法 所 近似 求解 。 在 参考 文献 [16] 中 ， 对 这 一 
模型 的 变 分 解法 进行 了 详细 的 介绍 。 不 过 在 实际 的 工程 实践 中 ，LDA ”模型 更 为 常用 
的 更 新 方法 是 言 布 斯 采样 (Gibbs sampling ) 法 ， 而 且 这 种 方法 更 容易 实现 分 布 式 
更 新 求解 。 天 于 分 布 式 吉 布 斯 采样 万 法 可 以 参考 参考 文献 [61]。 

4. 有 监督 主题 模型 

无 监督 的 主题 模型 技术 上 太 展 比较 苑 分， 但 结合 广告 的 业务 来 看 ， 其 得 到 的 主 
题 有 时 会 存在 混淆 、 不 易 解 释 等 问题 。 因 此 ， 其 结果 主要 适用 于 非 直接 售卖 的 场 
景 ， 如 用 作 点 击 率 预测 的 特征 。 

当 标 签 直 接 用 于 售卖 时 ， 它 们 往往 是 预先 定义 好 的 。 因 此 ， 有 监督 的 主题 模型 
对 于 这 种 场景 更 加 适用 。 根 据 前 面 的 讨论 ， 它 可 以 是 一 组 非 结 构 化 的 标签 集合 ， 也 
可 以 是 一 个 结构 化 的 层次 标签 体系 。 有 两 种 思路 来 解决 此 问题 : 一 是 采用 多 标签 分 
类 (multi-label classification) 的 方法 ， 二 是 沿用 上 面 的 主题 模型 方法 ， 将 
其 变 成 有 监督 主题 模型 。 关 于 有 监督 主体 模型 ， 以 上 述 的 LDA 为 出 帮 点 ， 研 究 者 也 提 
出 了 若干 种 相关 的 方法 。 

结合 广告 定向 的 情景 ， 可 以 关注 两 种 有 监督 主题 模型 。 

(1) 有 监督 的 LDA ( supervised LDA, sLDA ) ,这 是 在 某 种 标签 监督 下 进 
行 主题 挖掘 的 通用 模型 ， 适 用 于 标签 为 各 种 分 布 的 情形 。 当 标签 为 离散 值 时 ， 就 对 
应 于 根据 某 种 分 类 进行 主题 挖掘 。 

( 2 ) 层次 化 的 有 监督 的 LDA ( Hierarchically Supervised LDA, 
HSLDA ) *', EHRE , MEAZA Hierarchy EBSESAXURSS , XIF 
合 于 广告 中 的 需求 。 关 于 这 方面 的 具体 技术 可 以 参考 上 面 提 到 的 文献 。 

值得 注意 的 是 ， 人 在 文档 主题 挖掘 领域 ， 还 有 一 类 方法 也 与 Hierarchy 有 关 ， 如 
HLDA 或 HDP， 但 是 其 问题 定义 是 在 某 个 数据 集 上 学 习 得 到 一 个 Hierarchy 结 构 ， 而 不 


是 根据 一 个 给 定 的 Hierarchy 上 的 标准 挖掘 潜在 主题 。 因 此 ， 这 类 工作 不 属于 有 监 


督 主题 模型 的 荡 畴 。 

将 有 监督 的 文本 主题 模型 应 用 于 上 下 文 定向 ， 里 然 在 标签 体系 的 设计 上 可 以 做 
到 更 加 合理 ， 更 有 针对 性 ， 但 也 给 训练 过 程 审 来 了 麻烦 : 除了 准备 文档 集合 ， 还 需 
要 准备 对 应 的 标签 标注 ， 这 么 一 来 训练 集 能 够 覆盖 到 的 文档 规模 就 受到 很 大 限制 。 
因此 ， 人 在 有 监督 文本 主题 异型 的 实用 过 程 中 ， 最 关键 的 一 点 是 找到 系统 性 地 进行 批 
量 标注 的 方法 。 


12.3 行为 定向 


归 类 为 t (u ) 的 受众 定 同方 式 包括 从 用 尸 网 上 浏览 记录 加 工 得 到 的 兴趣 定 同 以 
及 根据 用 户 历史 所 在 的 地 域 得 到 的 用 户主 要 居住 地 的 “Where on Earth” AS. 
由 于 这 些 都 是 根据 用 户 的 历史 行为 进行 挖掘 的 问题 ， 因 此 把 它们 统称 为 行为 定向 
(Behaviorial Targeting, BT). 

行为 定向 需要 进行 大 规模 的 数据 挖掘 ， 是 在 线 广 告 中 数据 利用 和 变现 最 重要 的 
计算 问题 之 一 。 这 一 问题 可 以 描述 为 ， 根 据 某 用 户 一 段 时 期 内 的 各 种 网 络 行为 ， 将 
该 用 尸 映 射 到 某 个 定向 标签 上 。 关 于 行为 定 同 可 能 用 到 的 有 价值 的 数据 来 源 可 以 参 
考 6.6.1 节 。 而 行为 定向 的 用 到 的 标签 体系 、 建 模 方法 、 特 征 生 成 和 评测 指标 等 问题 
将 在 下 面 分 别 讨论 。 





行为 定向 问题 的 目标 是 找 出 在 某 个 类 型 的 广告 上 eCPM 相对 较 高 的 人 群 。 如 果 假 
设 在 该 类 型 的 广告 上 操 击 价值 近似 一 至， 那么 问题 束 转 化 为 找 出 在 该 类 型 广告 上 点 
击 率 较 高 的 人 群 。 虽 然 对 品牌 广告 而 言 ， 操 击 率 未 必 忌 是 合理 的 评价 指标 ， 然 而 如 
果 认 为 在 该 类 型 上 各 种 目的 的 广告 均衡 存在 时 ， 操 击 率 仍 然 具 有 相对 的 衡量 意义 。 
因此 ， 可 以 把 某 个 用 户 在 某 类 广告 上 的 点 击 量 作为 建 模 的 对 象 。 


由 于 点 击 行为 是 离散 到 达 的 随机 变量 ， 对 其 数量 最 自然 的 概率 描述 是 泊 松 分 

布 。 泊 松 分 布 的 形式 如 下 : 
"T A^ exp(—Az) 

h! 

其 中 h 为 某 个 用 户 在 某 个 定向 类 别 广 告 上 的 点 击 量 号 ，t 代 表 某 个 受众 标签 ， 而 入 
为 相应 的 控制 点 击 行为 到 达 频 繁 性 的 参数 。 当 然 ， 直 接 比 较 单 位 时 间 内 的 点 击 量 并 
没有 太 大 的 意义 ， 这 里 的 点 击 量 是 单位 有 效 展示 对 应 的 点 击 数 ， 关 于 如 何 计算 单位 
有 效 展示 ， 可 以 参考 13 .5.4 节 。 行 为 定向 模型 要 做 的 就 是 把 用 户 的 行为 与 频繁 性 参 
数 、 联 系 起 来 。 如 果 利 用 线性 模型 联系 用 户 行为 和 和 ， 则 有 : 


N 
Mt = i WinLin(b) (12.6) 


这 里 的 w,= (Ww Ww, ) 即 为 标签 t 对 应 的 行为 定向 模型 需要 优化 的 参数 ,n 
表示 不 同 的 行为 类 型 ， 如 搜索 、 网 页 浏览 、 购买 等 。 此 处 将 原始 行为 b 先 经 过 特征 
选择 函数 x (b) ， 再 将 结果 作为 特征 用 在 模型 中 。 将 公式 12.6 代 入 公式 12.5， 就 
得 到 行为 定向 的 整体 模型 。 

这 是 工程 上 一 种 非常 典型 的 建 模 思 路 : 当面 对 一 个 多 目 变量 的 回归 问题 时 ， 可 
以 先 根据 目标 值 的 特性 选择 合适 的 指数 族 分 布 来 朱 述 ， 并 用 线性 模型 将 多 个 自 变 量 
和 指数 族 分 布 的 参数 联系 起 来 。 这 样 做 ， 可 以 利用 线性 模型 更 新 简单 和 可 解释 性 强 
的 特点 ， 同 时 又 对 目标 变量 的 类 型 有 较 强 的 适应 性 。 这 种 建 模 方法 称 为 广义 线性 模 
型 (Generalized Linear Model, GLM), 。 有 关 广 义 线性 模型 的 一 般 性 讨论 可 以 
参考 参考 文献 [36]。 

公式 12.5 的 行为 定向 模型 有 两 点 需要 特别 说 明 。 

(1)w 可 以 是 与 标签 t 相关 的 ， 即 对 不 同 的 定向 标签 训练 不 同 的 线性 函数 。 
这 样 做 的 优点 是 可 以 更 准确 地 对 每 个 类 别 进行 建 模 ， 但 缺点 是 当 有 些 类 别 数据 不 足 


(12.5) 


时 估计 偏差 较 大 。 一 般 来 说 ， 当 w 与 标签 相关 时 ， 原 始 行为 也 可 以 考虑 经 过 一 个 与 
标签 无 天 的 选择 函数 ， 因 为 类 的 本 质 特征 已 经 反映 在 了 模型 参数 矢量 上 .。 

( 2) 这 种 建 模 方法 主要 适用 于 有 明确 需求 方 意义 的 标签 体系 : 只 有 广告 a 上 也 
有 这 些 标签 才能 根据 其 点 击 行为 来 建 模 。 

有 关公 陈 12 .6 中 的 模型 参数 w, 的 最 大 似 然 解 ， 需 要 多 次 访问 数据 进 代 求解 。 具 
体 的 求解 方法 并 不 复杂 ， 读 者 可 以 目 行 推导 ， 也 可 以 进一步 参考 参考 文献 [22]。 下 
面 重点 讨论 的 内 容 是 如 何 选择 合适 的 行为 定向 特征 以 及 优化 相关 的 计算 过 程 。 


12.3.2 行为 定向 特征 生成 


行为 定向 特征 的 生成 过 程 有 了 两 点 需要 讨论 : 一 是 特征 选择 消 数 x, 的 确定 , — 
是 公式 12 .5 对 应 模型 的 训练 集 的 组 织 和 生成 方式 。 行 为 定向 的 特征 生成 过 程 ， 由 于 
样本 量 比较 大 ， 处 理 的 高 效 性 是 在 工程 中 主要 考虑 的 问题 。 

最 常用 的 特征 选择 消 数 x,( b ) 是 将 一 段 时 间 内 的 原始 用 户 行 为 映射 到 确定 的 标 
签 体系 上 ， 同 时 计算 出 各 行为 在 对 应 标签 上 的 累积 强度 作为 模型 的 特征 输入 。 例 
如 ， 对 于 页 面 浏 宽 行 为 ， 我 们 用 上 下 文 定 同 的 方法 将 ”URL 转换 为 标签 ， 作 为 此 次 行 
为 的 标签 ， 而 一 次 浏览 的 强度 置 为 1 ; 而 对 于 搜索 行为 ， 可 以 根据 查询 词 将 其 映射 为 
标 等 ， 而 一 次 搜索 的 强度 置 为 1]。 关 于 搜索 、 广 告 点 击 、 网 页 浏览 等 各 类 行为 的 标签 
化 方法 还 将 企 后 面 专 门 讨 论 。 模 型 中 w., 的 作用 实际 上 融 是 在 调整 搜索 、 浏 览 等 不 同 
行为 类 型 的 重要 程度 。 这 一 特征 生成 过 程 如 图 12-6 所 示 。 
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图 12-6 行为 定向 特征 生成 过 程 示 意 
这 里 要 注意 ， 我 们 考虑 的 是 “一 段 时 间 内 的 行为 ”， 因 为 过 于 久远 的 行为 对 于 
用 尸 兴 趣 的 贡献 是 很 小 的 。 如 何 将 行为 罕 计 控制 在 一 段 时 间 以 内 ， 工 程 上 有 两 种 党 
用 的 方法 ， 分 别 是 滑动 窗口 法 和 时 间 衰 减法 ， 如 图 12-7 所 示 。 
在 滑动 窗口 法 中 ， 设 定 一 个 窗口 长 度 “D， 然 后 将 从 当前 时 间 倒 推 再 此 窗口 长 度 
内 所 有 属于 t 的 行为 强度 累加 起 来 。 用 “x 代表 累积 特征 以 区 别 于 单 时 间 片 特征 
x, 实际 上 在 公式 12.6 中 ， 应 该 使 用 “x 而 不 是 x。 在 滑动 窗口 法 中 ，mx 的 计算 公式 


à(d- Y.  a(d— ô) (12.7) 





图 12-7 用 户 行为 累计 方法 示意 : 滑动 窗口 法 ( 上 ) ， 时 间 误 减法 (下 ) 

而 在 时 间 衰减 法 中 ， 并 不 明确 设 定 窗口 长 度 ， 而 是 设 定 一 个 衰减 因子 c, 用 上 一 
个 时 间 片 的 票 积 特征 x (d-1) 与 本 时 间 片 的 行为 强度 x ( d ) 递归 地 得 到 今天 
的 累积 特征 “x (d) ， 其 更 新 公式 为 
x(d) = az(d — 1) + x(d) (12.8) 

在 实际 的 行为 定向 建 模 中 ， 会 用 累积 特征 “x 车 代 单 时 间 片 特征 x。 上 面 的 两 
种 票 积 特征 计算 方法 并 无 本 质 区 别 ， 它 们 对 原始 行为 过 滤 的 窗 型 ， 前 者 为 矩形 | 后 
者 为 指数 形 ， 并 且 形 状 都 由 唯一 的 参数 来 控制 。 但 是 从 工程 角度 看 , 我们 更 推荐 使 
用 第 二 种 方案 ,因为 在 这 种 方法 中 ， 只 需要 保存 累积 到 前 一 个 时 间 片 的 特征 和 当前 
时 间 片 的 行为 强度 ， 空间 和 时 间 复杂 度 都 比较 低 

行为 定向 的 训练 过 程 实际 上 就 是 调整 各 个 标签 类 别 上 各 种 特征 权重 的 过 程 。 影 
响 训练 结果 和 效率 的 因素 主要 有 两 个 。 

( 1 ) 训练 集 的 长 度 。 一 般 来 说 ， 为 了 消除 工作 日 的 周期 性 影响 ， 训 | 练 集 的 天 数 
一 般 选 择 为 7 的 整数 倍 。 对 一 个 用 户 来 说 ， 他 累积 到 前 一 个 时 间 片 的 行为 特征 
td) 和 本 时 间 片 的 该 标签 广告 点 击 次 数 h_( d ) 对 应 于 公式 12.5 的 一 个 训练 样 
本 。 因 此 ， 每 个 用 户 会 对 应 多 个 训练 样本 。 

( 2 ) 时 间 片 的 大 小 。 这 反映 了 对 定向 的 时 效 性 的 要 求 ， 如 果 希 望 更 快 地 利用 行 


为 数据 对 标签 做 出 调整 ， 必 然 要 缩小 这 一 时 间 片 大 小 节 。 

可 以 想见 ， 训 练 集 的 样本 数目 正比 于 训练 集 长 度 且 反比 于 时 间 片 长 度 。 当 用 户 
数目 较 多 、 训 练 集 长 度 较 长 ， 而 时 间 片 又 较 短 时 ， 忌 的 训练 样本 数目 是 非常 大 的 。 
为 了 避免 计算 匈 余 ， 使 训练 时 的 空间 代价 尽 可 能 小 ， 在 参考 文献 [22] 中 作者 给 出 
了 一 个 复杂 度 为 0 ( ln ) 的 训练 样本 生成 算法 ， 访 算法 的 关键 点 是 在 预 处 理 过 程 中 
生成 每 个 用 户 u 各 个 时 间 片 的 x, 和 h,， 将 它们 按时 间 顺 序 排列 成 一 个 事件 流 。 通 
过 在 此 事件 流 上 向 前 滑动 ， 依 次 在 训练 过 程 中 得 到 各 个 时 间 片 的 办 积 特征 x,.， 并 得 
到 相应 的 训练 样本 。 

这 一 方法 看 起 来 普通 ， 却 是 在 大 规模 用 户 行 为 分 析 时 必须 要 注意 的 ， 也 是 计算 

告 染 构 ( 图 9-2 ) 中 提 到 要 将 用 己 行 为 与 用 户 标 识 作为 键 组 织 人 在 一 起 的 原因 。 以 时 
间 衰 减法 为 例 ， 我 们 将 囚 积 行为 定向 特征 生成 的 过 程 用 下 面 的 代码 示意 。 


// In: 

// events : 各 时 间 片 的 原始 特征 
// alpha : KART 

// Out: 

// features : 各 时 间 片 的 累积 特征 


int btSampleGen(vector<Vec> & events, int T, vector<Vec> & features) { 


int numSlice = events.size(); 


int dim = events[0].size(); 


features.resize(numSlice) ; 
features[0] = events [0]; 
for (int s = 1; s < numSlice; s ++) { 
features[s] = features[s - 1]; 
for (int d = 0; d < din; d ++) ( 
features[s][d] *= alpha; 
features [s] [d] += events[s] [d]; 





各 类 行为 的 标签 化 方法 

上 面 天 于 行为 定向 特征 生成 的 讨论 还 缺少 一 个 环节 : 特征 选择 消 数 x,( b ) 的 计 
算 方 法 ， 即 搜索 、 广 告 点 击 、 网 页 浏览 等 行为 映射 到 一 个 或 多 个 定向 标签 上 。 这 是 
行为 定向 计算 过 程 中 最 天 键 的 环节 ， 下 面 介绍 工程 中 的 实用 方案 。 

(1) 网 页 浏览 、 分 享 等 与 内 容 相关 的 行为 可 以 通过 ”12.2.2 节 中 提 到 的 有 监督 
文本 主题 模型 的 方法 ， 将 其 映射 到 预先 定义 好 的 标 釜 体 系 上 ， 也 可 以 直接 提取 内 容 
中 的 关键 词 作为 标签 。 


(2 ) 广告 点 击 等 与 广告 活动 相关 的 行为 可 以 转化 为 对 广告 落地 页 内 容 的 分 析 ， 
因此 可 以 使 用 与 网 页 浏览 相同 的 方法 。 不 过 ， 实 践 中 经 党 会 页 到 广告 落地 页 内 容 为 
图 片 、Flash 或 者 内 容 很 少 的 情形 。 因 此 ， 根 据 创意 形式 的 不 同 ， 还 有 其 他 两 种 方 
法 : 当 创 意 为 文字 链 时 ， 可 以 将 其 题目 或 摘 述 作为 内 容 ; 当 创意 为 图 片 时 ， 往 往 需 
要 人 工 标注 其 标签 ， 但 由 于 工作 量 较 大 且 正 确 性 不 宜 评 估 ， 建 议 只 在 必要 时 进行 。 

( 3) 最 值得 重视 的 是 搜索 、 搜 索 点 击 等 与 查询 相关 的 行为 。 由 于 查询 的 信息 量 
较 少 ， 很 难 直 接 提取 标签 。 可 行 的 方案 有 两 种 ， 都 要 用 到 搜索 引擎 : 第 一 种 方案 是 
利用 搜索 引擎 做 内 容 扩展 ， 即 将 查询 送 入 搜索 引擎 ， 用 返回 的 在 干 结果 摘 述 或 者 链 
接 页 的 内 容 作为 该 查询 对 应 的 内 容 ， 这 种 方案 借助 通用 搜索 引擎 即 可 ; 第 二 种 方案 
是 对 查询 进行 某 垂 直 领 域 分 类 时 ， 直 接 利 用 相应 垂直 媒体 的 标签 体 系 和 搜索 引擎 。 
下 面 以 电 商 行业 为 例 来 襄 明 此 方案 。 

如 果 要 给 查询 标注 电 商 行业 标签 ， 可 以 来 用 与 某 综 合 电 商 ， 如 淘宝 ， 相 一 任 的 
分 类 标签 体系 。 在 此 基础 上 ， 任 给 一 个 查询 ， 将 其 送 入 淘宝 的 搜索 引擎 ， 然后 查看 
返回 商品 结果 对 应 的 分 类 ， 将 此 分 类 作为 标签 即 可 。 如 果 返 回 结果 很 少 或 结果 中 的 
分 类 很 分 散 ， 可 以 认为 此 得 询 没有 合适 的 电 商 行业 标签。 这 实际 上 是 伴 瞧 了 电 商 搜 
率 引 擎 成 熟 的 分 类 能 力 ， 往 往 可 以 较 快 地 做 到 比较 准确 的 查询 分 类 。 此 方法 的 限制 
是 必须 采用 与 肝 电 商 一 致 的 标 答 体 系 ， 不 过 一 般 来 说 这 不 是 大 问题 。 这 个 例子 虽然 
针对 电 商行 业 ， 但 对 于 其 他 垂直 行业 ， 如 汽车 、 房 产 等 ， 也 完全 适用 ， 只 要 借助 于 
该 行业 网 站 比较 成 熟 的 垂直 搜索 引擎 即 可 。 

( 4 ) 转化 、 预 转化 等 需求 方 行为 往往 可 以 对 应 到 一 个 单 品 。 同 样 ， 利 用 该 单 品 
的 分 类 信息 可 以 将 其 映射 到 某 个 标签 上 ， 而 对 于 预 转化 中 的 站 内 搜索 行为 ， 可 以 按 
照 上 面 的 一 般 搜索 行为 来 处 理 。 

这 几 类 典型 行为 的 标签 化 过 程 如 图 12 -8 所 示 。 对 于 其 他 的 行为 ， 往 往 也 可 以 归 
结 到 这 几 种 类 型 之 一 ， 或 者 根据 其 行为 数据 的 特点 具体 讨论 。 
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图 12-8 各 类 行为 标签 化 方法 示意 





虽然 公式 12 .5 的 行为 定向 模型 看 起 来 比较 复杂 ， 不 过 其 核心 目的 无 非 是 为 了 通 
过 数据 得 到 公式 12 .6 中 的 行为 系数 w,。 在 行为 定向 的 决策 过 程 中 ， 不 需要 A 到 jh 的 泪 
松 分 布 ， 只 需要 计算 线性 函数 ”入 的 值 ， 然 后 根据 预先 确定 的 国 值 来 确定 某 个 用 户 是 
否 应 该 补 打 上 某 个 定 同 标 签 。 

行为 定向 计算 过 程 比 训 练 过 程 的 数据 准备 要 简单 ， 因 为 不 再 需要 准备 目标 值 ， 
只 需要 按照 滑动 窗口 法 或 者 时 间 衰 减法 得 到 累积 特征 Ztn? 再 根据 w, 加 权 求 和 得 到 得 
分 \。 由 于 这 一 计算 过 程 也 是 线性 的 ， 当 特征 囚 积 采用 时 间 衰 减法 时 ， 得 分 入 也 可 
以 通过 昨天 的 得 分 衰减 后 罕 积 上 今天 得 分 的 方式 得 到 , BD : 


Ald) = Da wg, Od (d — 1) + 2. WnXtn(d) 


(12.9) 
一 Qt(d 一 1) 十 > WnXtn(d) 


上 面 的 公式 揭示 了 受众 定向 系统 工程 实现 的 一 个 关键 点 : 在 线 上 存储 各 用 户 的 
定向 标签 得 分 入 的 缓存 中 ， 在 每 个 新 的 时 间 周 期 ， 在 缓存 中 得 分 乘 以 a HTA 
减 ， 表 将 上 一 个 时 间 周 期 收集 到 的 原始 行为 x, 加 权 求 和 后 替 加 上 去 即 可 。 这 比 起 在 
每 个 时 间 周 期 重新 计算 所 有 入 并 更 新 整个 线 上 缓存 显然 要 轻 量 级 许多 。 这 一 线 上 计算 
过 程 更 加 体现 了 时 间 衰 减法 的 优势 ， 特 别 是 当 需 要 对 用 尸 的 短 时 行为 进行 快速 反馈 
时 ， 这 样 简便 的 递归 式 计 算 方法 非常 有 效 。 





对 于 上 面 讨论 的 行为 定向 模型 ， 因 为 可 以 通过 调整 线性 函数 输出 入 的 辣 值 来 控 
制 某 个 标签 人 群 的 量 ， 相 应 的 标签 人 群 在 广告 投放 中 的 效果 也 会 相应 变化 。 当 然 ， 
在 量 扩大 的 情况 下 一 般 来 说 精准 性 也 会 降低 。 其 他 形式 的 行为 定 同 模型 也 都 具有 类 
似 的 特点 。 因 此 ， 行 为 定 疝 模型 的 评测 需要 考虑 到 量 的 影响 。 

一 般 来 说 ， 行 为 定向 可 以 通过 reach/CTR 曲 线 来 进行 半 定 量 的 评测 。 在 正常 情 
况 下 ， 较 小 的 人 群 规模 应 该 较为 精准 ， 也 即 对 该 类 型 广告 的 ”CTR 较 高 ; 而 随 着 人 群 
规模 的 扩大 ， 该 CTR 也 会 逐渐 走低 。 我 们 把 标签 接触 到 的 人 群 规模 称 为 ”reach , 而 
这 一 reach 和 ”CTR 构成 的 曲线 是 评价 该 标签 上 的 定向 是 否 合理 、 以 及 效果 如 何 的 重 
要 依据 。 

图 12-9 给 出 了 一 个 实际 的 reach/CTR 曲 线 示例 ， 我们 来 了 解 一 下 解读 此 曲线 的 
几 个 关键 之 处 。 首 先 ， 该 曲线 应 该 大 体 呈 下 降 的 趋势 ， 如 果 数 据 质量 或 定向 建 模 有 
一 些 问题 ， 有 时 会 出 现 非 下 降 的 趋势 或 者 头 部 较 低 的 情况 ， 这 意味 着 调 低 用 尸 规模 
反而 使 得 点 击 率 下 降 ， 显然 是 不 正常 的 。 如 果 出 现 这 种 情形 ， 需 要 认真 检查 定向 流 
程 或 者 判断 是 否 已 和 有 的 数据 无 法 支持 该 定向 标签 。 其 次 ，reach/CTR 曲 线 最 右 端 一 
个 点 的 CTR 水 平 是 固定 的 ， 即 无 法 通过 改善 数据 和 模型 来 提高 ， 因 此 这 是 reach 达 到 
166%， 也 即 全 部 用 户 的 情形 下 的 CTR 水 平 。 该 曲线 的 斜率 越 大 ， 往 往 表示 定向 模型 


HISPER. ATLin hiss gri XE (Sore , PATIASUBHEBSAEISESSUR , 
因此 往往 只 需要 天 注 该 曲 续 头 部 的 部 分 即 可 。 
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工程 中 需要 注意 的 是 ， 生成 ”reach/CTR 曲线 的 过 程 需要 仅仅 访问 一 遍 数据 就 
能 完成 。 因 此 ， 在 前 面 受众 定向 的 过 程 中 ， 需 要 保留 的 是 每 个 用 户 在 各 个 标签 上 的 
得 分 值 ， 而 不 是 最 后 二 元 的 判断 结果 。 给 定 一 批 测试 用 户 在 所 有 标签 上 的 定向 得 分 
值 ， 生 成 reach/CTR 曲 线 的 过 程 如 下 面 的 代码 所 示 。 


struct Imp {int click; int userId; double score;}; 


Sf Im: 
Z4 imps ; 各 次 展示 的 数据 集 
Sf binlium : reach/CTRH#444,5,.4% 


ft Gat: 
Sf reachs : 各 点 的 reach 
Af ctrs : 各 点 的 CTR 


«€ 0 -1oO Ct & CQ t m 


void reach_ctr(vector<Imp> &imps, int binNum, Veckreachs, Vec&kctrs)i 


— 
c 


int sampleNum = (int)imps.size(); 


[e 
- 


12 // 遍历 所 有 的 样本 以 得 到 分 数 的 最 小 值 和 最 大 佳 


13 double minScore = INF, maxScore = -INF; 

14 for (int s = 0; s < sampleNum; s ++) i 

15 if (irps[s].score < minScore) minScore = imps[s].score; 
16 if (imps[s].score > maxScore) maxScore = imps[s]l.score; 
17 } 

18 

19 // 53] binhi Aa 

20 Vec bins; 

21 double step = (maxScore - minScore) / binNum; 

22 bins.assign(binNum * 1, minScore); 

23 for (int b = 0; b < binNum; b ++) 

24 bins[b + 1] = bins[b] + step; 

25 


26 /A 再 次 遍历 样本 以 得 到 各 个 bia 上 的 rsach 和 点 击 雪上 有 目 
21 Vec reachClicks; 
28 reachClicks.assign(binNum, 0); 


29 reachs.assign(binNum, 0); 

30 ctrs.assign(binNum, 0); 

31 for (int s = 0; s < sampleNum; s ++) i 
32 for (int b = 0; b < binNum; b ++) i 
33 if (imps[sl.score < bins[b])break; 
34 if (imps[sl.click) reachClicks[b] ++; 
35 reachs [b]++; 

36 } 

37 z 

38 

39 // 计算 reach 和 CTR 

40 for (int b - 0; b < binNum; b **) ( 

41 ctrs[b]-» reachClicks[b] / reachs[b]; 
42 reachs[b] /= sampleNum; 

43 } 








12.5 "ESI 


严格 来 说 ， 年 龄 、 性 别 、 教 育 程度 、 收 入 水 平等 人 口 属性 并 不 属于 用 户 的 兴 
趣 ， 而 是 用 户 确定 的 特点 摘 述 。 不 过 在 实际 定向 广告 系统 中 ， 除 了 一 些 实名 的 社交 
网 络 以 外 ， 规 模 化 地 获得 人 口 属性 比较 困难 ， 因 此 往往 还 是 需要 数据 驱动 的 模型 ， 
以 用 户 的 行为 为 基础 自动 预测 其 人 口 属性 。 

这 种 基于 预测 的 方法 直 葛 上 很 容易 理解 ， 以 性 别 属 性 为 例 : 经 常 访问 军事 网 站 
或 汽车 网 站 的 用 户 绝 大 部 分 都 是 男性 ; 经 常 浏览 娱乐 八卦 的 用 户 则 以 女性 居多 。 性 
别 属性 预测 的 问题 可 以 描述 成 一 个 典型 的 二 分 类 问题 ， 其 输入 特征 就 是 用 户 的 原始 
行为 b ( 或 者 提取 后 的 行为 特征 x* ) ， 而 输出 就 是 {M (58) ，F ( 女 ) } 两 个 分 类 。 有 
很 多 机 器 学 习 模型 都 可 以 用 于 性 别 预测 问题 ， 比 如 采用 最 大 后 验 概率 的 框架 ， 则 预 
测 问题 可 以 表示 成 : 
g = arg maxse (y, r3 P(g|b) (12.10) 

其 他 的 模型 ， 如 支持 向 量 机 ( Support Vector Machine , SVM) “* 
AdaBoostc* 等 ， 都 可 以 考虑 ， 需 要 根据 自己 的 数据 特点 具体 判断 哪 种 模型 更 合理 。 

建 模 中 有 两 个 问题 需要 注意 : 首先 ， 不 论 用 什么 样 的 模型 来 预测 人 口 属性 ， 必 
须要 有 一 定 的 拒 识 门槛 ， 也 就 是 说 对 那些 行为 不 够 丰富 或 不 够 有 代表 性 的 用 户 应 该 
输出 “未 知 ” 的 判断 ， 而 不 是 简单 地 用 模型 算出 一 个 结果 ; 其 次 ， 模 型 训练 集 的 获 
得 非常 重要 ， 往 往 算法 的 有 效 性 不 如 更 准确 、 规 模 更 大 的 训练 集 对 结果 的 提升 明 
显 。 较 大 训练 集 的 获得 往往 是 要 依赖 社交 网 络 ， 比 如 可 以 将 广告 系统 的 用 户 身份 与 
微 情 用 户 对 应 ， 再 从 微 博 公开 的 用 户 属性 获得 标注 。 

除了 性 别 以 外 的 其 他 人 口 属 性 用 简单 的 分 类 模型 并 不 太 准 确 。 以 年 龄 为 例 ， 假 
设 我 们 把 标签 设 定 成 五 个 年 龄 段 ， 那 么 将 第 一 个 年 龄 段 的 认错 分 到 第 二 个 年 龄 段 与 
错 分 到 第 三 个 年 龄 段 的 代价 应 该 是 不 同 的 ， 而 如 果 采 用 简单 的 5 个 类 的 分 类 模型 ， 这 


一 老 别 残 被 忽略 了 。 因 此 ， 需 要 在 分 类 模型 中 明确 考虑 不 同类 之 间 的 错 分 代价 ， 其 
他 的 属性 如 教育 程度 、 收 入 水 平 也 类 似 。 不 过 总 体 上 说 ， 从 用 户 行 为 上 预测 非 性 别 
的 人 口 属性 是 比较 困难 的 任务 ， 除 非 有 非常 相关 的 数据 来 源 以 及 元 分 多 的 准确 的 训 | 
练 样本 ， 否 则 不 太 建 议 用 这 种 方法 获得 这 些 标签 。 


12.5 数据 管理 平台 


第 6 章 介 绍 了 数据 交易 平台 和 | 数据 管理 平台 这 两 种 与 广告 相关 的 数据 产品 。 虽 
然 这 些 数据 产品 主要 是 在 程序 化 交易 市 场 中 发 挥 作用 ， 不 过 就 其 技术 架构 来 说 ， 不 
过 是 将 本 章 介绍 的 数据 收集 和 受众 定向 功能 独立 出 来 ， 形 成 专门 的 产品 ， 因此, 我 
们 在 本 章 中 一 起 介绍 。 另 外 ， 数 据 管 理 平台 和 数据 交易 平台 虽然 分 别 从 第 一 方 和 第 
三 方 的 视角 来 收集 和 加 工 数据 ， 不 过 其 技术 架构 却 很 类 似 ， 而 且 在 实际 产品 中 分 界 
也 没有 那么 鲜明 ， 因 此 我 们 在 此 统一 以 数据 管理 平台 来 代表 。 

数据 管理 平台 的 系统 架构 如 图 12-16 所 示 。 通 过 部 署 在 媒体 上 的 代码 或 SDK 收集 
第 一 方 访问 日 志 ， 送 入 数据 高 速 公 路 。 同 时 通过 数据 高 速 公路 收集 自 有 的 第 二 方 数 
据 ， 然 后 把 这 些 日 志 原 始 行为 映射 到 结构 化 或 非 结构 化 的 受众 标签 体系 上 。 另 外 ， 
还 会 有 一 些 第 三 方 提 供 的 加 工 好 的 标签 数据 直接 进入 用 户 标 签 集 。 最 后 通过 统一 的 
接口 对 外 提供 标签 。 在 这 一 架构 中 ，DMP 同 时 对 接 了 第 一 方 、 第 二 方 和 第 三 方 的 数 
据 ， 并 根据 这 些 数据 对 受众 群体 进行 灵活 的 、 自 定义 的 划分 。 昌 然 这 些 功能 并 不 直 
接 体 现在 广告 交易 环节 中 ， 却 是 数据 驱动 的 在 线 广告 中 越 来 越 重要 的 一 环 。 

除了 需要 用 到 上 面 讨论 的 受众 定向 技术 ，DMP 还 有 一 个 技术 问题 ， 即 如 何 将 用 户 
标签 传送 给 购买 方 ， 比 如 某 ”DSP。 这 包括 两 个 环节 ， 一 是 用 户 身 份 对 应 ， 比 如 将 在 
第 14 章 中 介绍 的 cookie 映 射 ; 二 是 数据 的 传递 方式 。 图 12-16 中 的 数据 传递 是 直接 
通过 在 线 缓存 的 形式 访问 ， 实 际 上 更 常见 的 方式 是 在 广告 交易 的 过 程 中 ， 附 着 在 询 
价 请 求 上 直接 提供 。 


12.6 延 介 思考 


1. 移 动 互联 潜在 的 受众 定向 能 力 会 高 于 PC, 利用 移动 互联 网 的 哪些 数据 可 以 加 
工 出 哪些 与 PC 不 同 的 定向 标签 ? 

2 .本 章 中 给 出 的 行为 定向 建 模 方法 比较 适合 于 那 学 对 应 于 广告 主 分 类 的 、 规 模 
较 大 的 兴趣 标签 ， 对 于 其 他 无 法 明确 对 应 广告 主 分 类 或 规模 不 大 的 兴趣 标签 应 该 如 
何 处 理 ? 
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图 12-16 数据 管理 平台 (DMP ) 系统 架构 示意 
本 书 由 [ePUBw.COM| 整理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
电子 书 下 载 ! |! 


第 13 章 竞价 广告 核心 技术 


竞价 交易 是 整个 在 线 广告 市 场 最 天 键 的 一 次 产品 进化 ， 同 时 也 市 来 了 广告 扩 术 
的 迅速 友 展 。 应 该 说 ， 竞 价 广告 使 得 当今 计算 广告 中 最 关键 的 几 项 通用 技术 挑战 找 
到 了 适用 的 场景 ， 并 很 快 成 熟 起 来 。 本 章 将 首先 给 出 实际 系统 中 各 种 机 制 设计 共同 
作用 时 的 竞价 多 辑 ， 然 后 介绍 搜索 广告 和 广告 网 络 这 两 种 典型 产品 的 技术 架构 和 优 
化 目标 以 及 其 中 的 一 些 计算 问 题 。 在 此 基础 上 ， 将 重点 介绍 竞价 广告 最 关键 的 几 项 
通用 技术 ， 特 别 是 广告 检索 和 eCPM 佑 计 技 术 。 

在 亮 价 广告 中 ， 大 量 中 小 广告 主 的 检索 规模 使 得 计算 的 效率 要 求 很 高 ， 如 何 根 
据 广 告 的 业务 要 求 设计 更 高 效 的 索引 和 检索 技术 是 竞价 广告 系统 要 解决 的 天 键 问 
题 。 我 们 将 结合 广告 检索 的 具体 需求 ， 重 点 讨论 布尔 表达 式 检 索 与 相关 性 检索 这 两 
个 场景 下 的 算法 思路 。 

另外 ， 竞 价 广告 系统 还 需要 对 给 定 (a,u,c) 组 合 上 的 ecPM 做 尽 可 能 准确 的 
估计 ， 由 于 大 量 中 小 广告 主 的 参与 ， 广 告 系统 对 eCPM 的 估计 往往 面临 样本 不 足 的 
情形 。 与 此 相关 的 点 击 率 预测 和 探索 与 利用 两 个 问题 所 涉及 的 技术 也 是 竞价 广告 系 
统 通用 的 关键 技术 。 点 击 率 预 测 是 广告 系统 中 最 重要 的 机 器 学 习 问 题 之 一 ， 由 于 面 
对 的 数据 量 巨大 ， 如 何 高 效 地 设计 算法 以 减少 迭代 是 优化 中 要 考虑 的 天 键 。 另 外 , 
结合 广告 业务 的 特点 设计 有 效 的 特征 ， 让 点 击 率 模型 快速 捕捉 用 户 兴趣 的 动态 信号 
是 提高 点 击 率 预测 效果 的 天 键 

在 搜索 广告 中 ， 竞 价 标 的 即 天 键 词 的 粒度 很 细 。 因 此 ， 在 5.1 节 中 介绍 的 查询 扩 
展 问 题 全 天 重要 。 碍 询 扩 展 可 以 看 成 是 一 个 天 键 词 推荐 问题 ， 但 也 需要 考虑 一 些 与 
广告 领域 相 天 的 特点 。 另 外 ， 搜 索 广 告 的 北 区 广告 条 数 在 全 略 上 存 企 非 贡 大 个 性 化 


调整 空间 ， 这 可 以 质 述 成 一 个 用 户 体 验 约 束 下 的 收入 优化 问题 。 

广告 网 络 中 的 反 人 作弊 、 计 价 等 模块 ， 需 要 将 系统 日 志 快 速 加 工 处 理 并 反馈 给 续 
上 决策 系统 。 另 外 ， 对 用 己 行 为 和 点 击 的 快速 反馈 对 广告 效果 的 提高 帮助 很 大 。 这 
些 准 实时 数据 处 理 需 求 催 生 了 流 计 算 平台 。 流 计算 技术 与 Hadoop 等 离线 分 布 式 计算 
技术 相配 合 可 以 更 有 效 地 完成 计算 广告 中 的 数据 处 理 任务 。 


13.1 竞价 广告 计价 算法 


第 5 草 介 绍 了 搜索 广告 和 广告 网 络 这 两 种 最 典型 的 竟 价 广告 产品 。 在 进入 这 些 
具体 产品 的 技术 之 前 ， 我 们 先 来 了 解 “ 亮 价 ”这 一 核心 逻辑 具体 的 实现 ， 顺 便 引 出 
此 核心 逻辑 的 几 项 主要 文 持 技术 。 

5.2 节 介绍 了 位 置 扫 卖 市 场 中 一 些 常用 的 定价 策略 ， 包括 GSP、MRP、 价 格 挤 压 
等 ， 蛙 独 理解 这 些 策略 都 不 困难 。 在 实际 的 系统 中 ， 需 要 将 这 几 种 策略 综合 起 来 执 
行 。 以 按 ”CPC 计价 的 竞价 广告 产品 中 一 次 广告 展示 为 例 ， 我 们 将 实际 的 计价 算法 用 
下 面 的 代码 摘 述 ， 可 以 对 照 表 5- 2 进一步 直观 地 理解 此 完整 的 定价 过 程 。 


Pr Eas 

"o d cands > 候选 广告 ID 

Lr ctrs : RAP SREY ARSE 
we bids + 候选 广告 的 出 价 

// MRP : 市 场 保留 价 

P squash  : Hr4e7* AF 

LIO slotNum : 要 求 的 广告 条 日 数 

4/4 Out: 

xz results : HAGA 

E prices  : 计价 结 采 


void auction(vector<int> & cands, Vec & ctrs, Vec & bids, float MRP, 


m - 
FcCco Dn oo ak ON eH 


12 float squash, int slotNum, vector<int> & results, Voc & prices) 1 
13 int candNum = cands.size(); 

14 

15 /A 按照 给 定 的 squashing 因 子 调 整 预 估 CTR 

16 for (int c = 0; c < candNur; c ++) 

17 ctrs[c] = ctrs[c] ^ squash; 

18 

19 Z7 计算 调整 后 的 eCPM 

20 Vec eCPMs; 

21 eCPMs.resize(candNum, 1e-101); 

22 for (int c = 0; c < candNur; c ++) 

23 if (bids[c] >= MRP) // 跳 过 那些 出 从 小 于 市 场 保留 价 的 候选 
24 eCPMs[c] = ctrs[c] = bids[cl; 

25 

26 /A 将 所 有 候选 按照 ecPM 排 序 

27 for (int ci = 0; ci < candNum; ci ++) 

28 for (int c2 = ci + 1; c2 < candNum; c2 ++) 
29 if (eCPMs[ci] < eCPMs[c2]) t1 

30 SWAP Ccands[ci], cands[c2]); 

31 SWAP CeCPMs[ci]l, eCPMs[c2]); 

32 SWAP(ctr&E [ci], ctrs [c2]); 

33 } 

34 

35 /A FENAR ARH RE ffo 

36 results.clear(); prices.clear(); 

37 for (int c = 0; c < candNum - 1; r ++) ( 
38 if (eCPMs[c] <= 1e-101) 

39 break; 

40 

41 AZ 按照 G3P 计 算 定 价 

42 float price = eCPMs[c + 1] / ctrs[cl; 
43 if (price < MRP)price = MRP; 

44 

45 results. push_back(cands[c]); 

46 prices. push_back (price); 





在 实际 的 广告 产品 中 ， 还 有 可 能 同时 存在 若干 种 计 费 方式 ， 其 eCPM 估 算 过 程 也 
不 同 ， 我 们 用 下 面 的 一 小 段 代码 来 说 明 在 各 种 计 费 方式 并 存 的 情况 下 完整 的 eCPM 计 
算 逻 辑 。 当 然 ， 这 里 的 逻辑 比较 简单 直观 ， 有 关 CPM 和 和 CPC 混 合 竞 价 的 拍卖 过 程 与 
定价 机 制 的 探讨 可 以 进一步 参考 参考 文献 [81]。 


enum BidMode(CPM, CPC, CPS); 


float calcuECPM(float bid, BidMode mode) { 
switch (mode) 1 
case CPM: 
return bid; 


case CPC: 


return predictCtr() * bid; 
case CPC: 


return predictCtr() * predictClickValue(); 





定价 过 程 的 输入 可 以 看 出 ， 对 于 一 个 cPC 结 算 的 竞价 广告 系统 ， 需 要 先 得 到 广 
告 候选 集合 ， 并 计算 每 个 候选 的 点 击 率 ， 这 对 应 了 竞价 广告 两 个 最 关键 的 计算 问 
告 检索 和 广告 排序 ， 这 也 是 本 章 要 讨论 的 重点 技术 问题 。 
竞价 广告 中 根据 ecCPM 对 广告 进行 排序 ， 而 根据 2. 3 .1 节 的 介绍 ， 按 照 点 击 和 转 
化 两 个 发 生 在 不 同 阶段 的 行为 ，eCPM 可 以 分 解 成 点 击 率 和 点 击 价值 的 乘积 ，eCPM 的 
估计 主要 就 是 点 击 率 预测 和 点 击 价值 估计 两 个 任务 : 
r(a,u,c) = u(a,u,c) - vla, u) (13.1) 
点 击 率 h 是 广告 三 个 行为 主体 的 函数 ， 而 点 击 价值 则 是 用 户 u 和 广告 商 a 的 函数 。 
在 CPC 计 算 的 竞价 广告 中 ， 氮 击 价值 是 广告 主 的 出 价 ， 不 需要 估计 。 在 分 别 介 绍 搜索 


广告 和 广告 网 络 的 架构 和 技术 点 之 后 ， 我 们 将 把 主要 篇 幅 放 在 广告 检索 和 点 击 率 预 
测 这 两 项 核心 技术 上 。 


13.2 AE 


搜索 广告 是 最 早产 生 的 ， 也 是 最 为 重要 的 竞价 广告 系统 。 搜 索 广告 的 优化 目标 
在 公式 2.2 的 基础 上 加 以 调整 ， 可 以 用 下 式 来 表达 : 


max 1(ai;, Ci) + bidepc(a; 13.2 
nex, Aina) oidcpc(a;)] (13.2) 
这 个 目标 相对 简单 清晰 : 对 每 次 展示 的 各 个 候选 ， 根 据 查 询 估计 其 点 击 率 4， 并 


乘 以 广告 主 出 的 点 击 单 价 得 到 eCPM， 青 按 此 排序 即 可 。 而 在 eCPM 的 估计 过 程 中 ， 根 
据 上 下 文 即 用 户 输 入 的 查询 来 决策 。 

搜索 广告 是 吝 价 广告 中 最 典型 的 系统 之 一 ， 它 与 一 般 广 告 网 络 最 主要 的 区 别 是 
上 下 文 信息 非常 强 ， 用 户 标 签 的 作用 受到 很 大 的 限制 。 搜 索 广告 的 检索 过 程 一 般 都 
不 考虑 用 户 u 的 影响 ， 而 上 下 文 信息 “， 即 查询 ， 又 是 实时 通过 用 户 输入 获得 ， 因 而 
离线 受众 定向 的 过 程 基 本 可 以 被 省 略 。 在 这 样 的 应 用 场景 下 ， 搜 索 广告 的 系统 架构 
如 图 13-1 所 示 ， 它 与 一 般 的 竞价 广告 系统 架构 的 主要 区 别 是 没有 上 下 文 和 用 户 标签 
的 缓存 ， 但 是 其 检索 模块 由 于 查询 扩展 的 需求 ， 会 比 一 般 的 竞价 广告 系统 要 复杂 ， 
并 且 在 排序 后 的 收益 优化 阶段 还 需要 进行 北 区 和 东区 的 广告 放置 决策 。 

搜索 广告 算法 上 最 关键 的 技术 是 点 击 率 预测 ， 这 一 点 会 在 后 面 专 | ] 讨 论 。 除 此 
之 外 ， 搜 索 广 告 还 有 一 个 技术 上 的 重点 ， 那 就 是 查询 词 的 扩展 ， 即 如 何 对 简短 的 上 
下 文 信息 进行 有 效 的 拓展 ， 由 于 搜索 广告 的 变现 水 平 高 ， 这样 的 精细 加 工 是 值得 而 
且 有 效 的 。 


13.2.1 查询 扩展 


搜索 广告 中 查询 的 重要 性 极 高 ， 粒 度 又 非常 细 ， 如 何 根据 广告 主 需求 对 关键 词 
进行 合理 的 拓展 对 于 需求 方 和 供给 方 来 说 都 有 很 大 意义 。 需 求 方 需要 通过 扩展 关键 
词 获得 更 多 流量 ; 供给 方 则 需要 借 此 来 变现 更 多 流量 和 提高 竞价 的 激烈 程度 。 
此 ， 查询 扩 展 是 搜索 广告 的 重要 技术 ， 它 主要 用 于 5.1.3 节 中 介绍 的 广泛 匹配 情形 
下 。 搜 索 广 告 的 查询 扩展 与 搜索 中 的 查询 扩展 既 有 相通 之 处 ， 又 有 一 些 显 闭 的 区 
别 。 相 关 的 方法 很 多 ， 在 此 只 介绍 3 种 主要 的 思路 。 
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图 13-1 搜索 广告 系统 架构 示意 


1. 基 于 推荐 的 方法 

如 果 把 用 户 一 个 会 话 ( session) 内 的 查询 ( query ) 视 为 目的 相同 的 一 组 活 
动 ， 可 以 在 {session，query} 和 矩阵 上 通过 推荐 技术 产生 相关 的 关键 词 。 这 种 方法 利 
用 的 是 搜索 的 日 志 数 据 ， 而 基本 上 个 性 化 推荐 领域 的 各 种 思路 和 方法 都 可 以 适用 。 
以 查询 扩展 的 问题 为 例 介 绍 一 下 推荐 技术 的 基本 问题 。 

给 定 一 组 用 户 会 话 s={1, =, M) 和 一 组 关键 词 w={1, =, N}， 可 以 产生 一 个 


对 应 的 交互 强 硫 和 矩阵 {x,,},。 如 果 其 中 有 某 个 用 户 搜索 过 早 个 关键 词 ， 则 起 阵 相应 的 
元 素 融 置 为 一 个 相应 的 交互 值 ， 比 如 该 用 户 在 一 段 时 间 内 搜索 过 该 词 的 次 数 。 


显然 ， 这 个 矩阵 中 大 多 数 单元 都 是 空白 ， 但 这 并 不 意味 着 用 户 搜索 该 词 的 可 能 
性 为 零 。 而 推荐 的 基本 任务 残 是 根据 这 个 矩阵 中 已 知 的 元 素 值 去 尽 可 能 预测 性 地 填 
充 那 些 历 史上 没有 观测 到 的 单元 。 类 似 的 场景 除了 搜索 ， 还 广泛 出 现在 各 种 互联 网 
应 用 当中 ， 比 如 商品 的 浏览 或 购买 记录 以 及 在 线 电 影 的 打分 记录 都 可 以 抽象 出 类 似 
的 交互 强度 矩阵 以 及 相应 的 推荐 问题 。 这 样 根据 群体 用 尸 的 选择 关联 性 进行 推荐 的 
问题 也 被 称 为 协同 过 滤 (Collaborative Flittering , CF ) 问题 。 

基于 协同 过 滤 的 推荐 问题 有 非常 多 的 算法 ， 它 们 可 以 分 为 基于 内 存 的 非 参 数 化 
的 方法 和 基于 模型 的 参数 化 方法 。 后 者 是 用 维 数 较 低 的 空间 概要 性 地 刻画 交互 矩 
阵 ， 然 后 根据 该 空间 的 生成 参数 恢复 矩阵 里 未 知 的 值 。 这 种 将 空间 降 维 的 思路 与 文 
档 主题 模型 乍 看 起 来 很 相似 ， 不 过 问题 本 身 还 是 有 了 明确 的 区 别 : 在 推荐 问题 中 ,应 
该 把 那些 未 观测 到 的 交互 单元 视 为 未 知 ， 而 在 文档 主题 模型 中 ， 合 理 的 方法 是 认为 
未 在 某 文档 中 出 现 的 词 交互 强度 为 0%。 关 于 推荐 算法 的 绪 述 可 以 参考 [58，68] 等 文 
BÀ. 

各 种 推荐 方法 的 本 质 都 是 对 {x,,}， 和 矩阵 进行 平 渭 ， 从 而 将 x,， 变 成 平滑 后 的 


mn 


值 Tm n。 为 什么 可 以 利用 推荐 的 万 法 进行 关键 词 扩展 呢 ? 对 某 一 个 关键 词 w 来 说 ， 
其 原始 的 交互 强度 矢量 ( x,。，… ,Xx ) ,虽然 我 们 也 可 以 根据 两 个 关键 词 对 应 夭 
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往 不 可 行 。 在 经 过 了 推荐 算法 的 平滑 以 后 ,这 一 矢量 变 成 (Tin Ts) 
矢量 中 的 未 知 元 素 也 都 被 填充 上 相对 合理 的 值 ， 于 是 就 可 以 稳健 地 比较 关键 词 的 相 
似 度 . 

2 .基于 主题 模型 的 方法 

除了 利用 搜索 的 日 志 数 据 ， 也 可 以 利用 一 般 的 文档 数据 进行 查询 扩展 。 这 类 方 
法 实质 上 就 是 利用 文档 主题 模型 对 某 个 查询 拓展 出 主题 相似 的 其 他 查询 。 关 于 文档 
主题 模型 的 介绍 可 以 参考 12 .2 . 2 节 。 

在 主题 异型 的 描述 下 ， 每 个 词 w 都 可 以 对 应 于 一 个 文本 主题 组 成 的 矢量 {z , 
2a, zn). FR ， 也 可 以 用 两 个 词 对 应 的 主题 矢量 来 计算 它们 相似 度 。 这 种 方法 
与 上 一 种 方法 相 比 ， 主 要 考虑 的 是 语意 上 的 相关 性 ， 而 非 用 户 意图 上 的 相关 性 ， 因 
此 效果 会 差 一 些 ， 只 能 作为 用 户 搜索 行为 数据 不 足 时 的 补充 方法 ， 

3. 基 于 历史 效果 的 方法 

对 搜索 广告 而 言 ， 还 有 一 类 查询 扩展 方法 很 重要 ， 那 就 是 利用 广告 本 身 的 历史 
ecPM 数 据 来 挖掘 变现 效果 较 好 的 相关 查询 。 由 于 在 广告 主 选择 竞价 的 关键 词 时 ， 一 
般 来 说 都 会 选择 多 组 ， 如 果 从 历史 数据 中 发 现 ， 某 些 关键 词 对 某 些 特定 广告 主 的 
ecpw 较 高 ， 那 么 应 该 将 这 些 效果 较 好 的 查询 组 记录 下 来 ， 以 后 当 另 一 个 广告 主 也 选 
择 了 其 中 的 某 个 关键 词 时 ， 可 以 根据 这 些 历史 记录 ,自动 地 扩展 出 其 他 效果 较 好 的 
aig, 

虽然 这 种 方法 得 到 的 扩展 结果 经 常会 与 前 两 种 方法 得 到 的 结果 相 重 合 ， 不 过 由 
于 这 种 方法 直接 使 用 广告 的 优化 目标 ， 即 eCPM 来 指导 查询 扩展 ， 往往 能 够 成 为 前 
两 种 方法 非常 重要 的 补充 手段 ， 而 且 对 提高 营 收 起 到 的 效果 往往 还 要 好 于 前 面 的 两 
种 方法 。 


13.2.2 [ == 


如 5.1.3 节 中 讨论 的 ， 广 告 放置 措 的 是 搜索 引 掌 广告 中 确定 北 区 和 东区 广告 条 数 
的 问题 。 考 虑 到 用 户 体验 ， 需 要 对 北 区 广告 的 数量 进行 限制 ， 因 此 ， 这 是 一 个 典型 
的 市 约束 优化 的 问题 : 约束 是 系统 在 一 段 时 间 内 整体 的 北 区 广告 条 数 ， 而 优化 的 目 
标 则 是 搜索 广告 系统 的 整体 营 收 。 在 进行 广告 放置 之 前 的 排序 过 程 中 ， 比 较 的 都 是 
单条 广告 的 eCPM， 不 过 此 处 的 优化 需要 处 理 一 组 广告 ， 并 有 需要 考虑 位 置 因素 ， 此 
问题 可 以 表达 如 下 : 


T: nij _ nite; 
max > { X T (Qis, Ci, Ns) + > r(dis, ci, Esn) } 
=] B] l s=n;+ 1 
X: 
X aO Mi = FG 
;二 


其 中 n, 和 e, 分 别 表示 第 i 次 展示 的 北 区 和 东区 广告 条 数 。 在 eCPM 的 表达 r 
中 ， 多 了 一 个 表示 位 置 的 参数 上 衬 ， 例 如 ，N。 表示 北 区 的 第 s 个 位 置 ，E， 表示 东区 的 
第 s 个 位 置 。C 为 北 区 的 平均 广告 条 数 上 限 。 显 然 ， 调 整 北 区 广告 准 入 的 一 些 指标 ， 
如 MRP、 相 天 性 、 质 量度 等 ， 都 会 影响 此 问题 的 解 。 为 了 不 使 表达 过 于 复杂 , KES 
数 在 公式 13 .3 中 没有 显 式 出 现 ， 但 读者 可 以 很 容易 地 在 实际 系统 中 找到 它们 的 作用 
并 模拟 其 影响 。 显 然 ， 这 个 问题 形式 上 不 是 可 导 的 ， 而 且 要 调整 的 参数 也 不 太 多 ， 
可 以 采用 16.2.2 节 中 介绍 的 下 降 单 纯 形 法 求解 。 

搜索 广告 虽然 不 宜 进 行 深 入 的 个 性 化 ， 但 在 广告 放置 问题 上 存在 着 很 大 的 个 性 
化 空间 。 不 同 用 户 对 于 广告 接受 和 容忍 的 程度 有 着 很 大 的 不 同 ， 实 际 上 ， 即 使 在 北 
美 这 样 的 用 户 教育 水 平 较 高 的 市 场 上 ， 也 至 少 有 36% ~ 46% 的 用 户 不 能 完全 分 辨 搜索 
结果 和 上 广告。 因此， 对 不 同 的 用 户 动 态 调整 北 区 的 条 目 数 可 以 使 得 在 北 区 平均 广告 
数目 相同 的 约束 下 ， 整 体系 统 的 营 收 有 显著 的 提高 。 在 考虑 单个 用 户 的 广告 接受 程 
度 后 ， 我 们 可 以 对 公式 13.3 中 的 收入 作 个 性 化 的 调整 。 例 如 ， 对 于 北 区 的 一 个 广 


告 展示 ， 改 成 下 面 的 形式 : 
r' (dis, uj, ci, Ns) = T (ais, ci, No) :np(ui) /Tn (13.3) 


这 里 的 从 (Wi) Al 天 分别 表示 用 户 u 对 北 区 广告 的 平均 点 击 率 和 所 有 用 户 对 北 
区 广告 的 平均 点 击 率 。 在 计算 点 击 率 的 过 程 中 需要 对 北 区 不 同位 置 的 点 击 做 归 一 
化 ， 并 且 需 要 做 平滑 ， 参 考 13.5.4 节 。 用 r 蔡 换 公式 13 .3 中 的 r 后 ， 可 以 用 同样 的 
框架 求解 。 


13.3 广告 网 络 


广告 网 络 是 除了 搜索 三 告 以 外 最 重要 的 非 实时 竞价 类 广告 产品 。 由 于 没有 了 明 
确 的 用 尸 意 图 以 及 展示 位 置 的 固定 性 ， 像 查询 扩展 、 广 告 放置 等 问题 在 广告 网 络 中 
并 不 存 企 。 下 面 看 一 下 广告 网 络 的 优化 目标 、 系 统 架 构 以 及 短 时 行为 反馈 等 问题 。 

广告 网 络 的 优化 目标 在 公式 2. 2 的 基础 上 有 所 调整 ， 可 以 用 下 式 来 表达 : 


T 
max N (uai, uj, Ci) * bidcpc(ai)} (13.4) 
ur dcm 


由 于 广告 网 络 的 成 本 是 分 成 或 包 断 媒体 资源 ， 因 此 公式 2.2 中 的 成 本 项 被 去 掉 
了 ; 而 收入 部 分 是 比较 典型 的 根据 "a given user in a given context" , 
求 “suitable ad” 的 过 程 ， 即 根据 给 定 的 用 户 和 上 下 文 求 合 适 的 广告 的 过 程 ， 这 
也 反映 了 计算 广告 决策 的 核心 好 辑 。 

广告 网 络 的 典型 系统 架构 如 图 13-2 所 示 ， 其 中 广告 投放 的 决策 流程 为 : 服务 器 
接收 前 端 用 户 访 问 触 友 的 广告 请 求 ， 首 先 根据 上 下 文 信息 和 用 户 身 份 标识 从 页 面 标 
签 和 用 户 标 签 中 查 出 相应 的 上 下 文 标签 和 用 户 标 签 ; 然后 用 这 些 标 签 以 及 其 他 一 些 

告 请 求 条 件 从 广告 索引 中 找到 符合 要 求 的 广告 候选 集合 ; 最 后 ， 利 用 CTR 预 估 模 型 

计算 所 有 的 广告 候选 的 ecPM， 再 根据 eCPM 排 序 选 出 赢得 竞价 的 广告 ， 并 返回 给 前 端 


完成 投放 。 

从 离线 计算 的 流程 来 看 ， 广告 网 络 需要 根据 广告 投放 的 历史 展示 和 点 击 数据 对 
所 击 率 预测 进行 建 模 。 当 然 ， 实 际 的 广告 网 络 也 往往 需要 同时 提供 受众 定向 的 功 
能 ， 因 此 这 部 分 离线 计算 也 需要 进行 。 不 过 由 于 我 们 只 给 出 最 核心 的 功能 块 ， 因 此 
没有 强调 这 一 部 分 。 

由 于 广告 网 络 广泛 采用 CPC 计 费 ， 准 实时 的 计 费 和 点 击 反 作 次 功能 是 必 不 可 少 
的 ; 另外 ， 将 用户 行为 尽快 反馈 到 广告 决策 中 对 于 点 击 率 预 估 和 受众 定向 的 效果 提 
升 也 非常 关键 。 这 些 需 求 共 同 众生 了 流 计 算 技 术 ， 这 一 技术 被 广泛 应 用 于 短 时 受众 
定向 和 短 时 用 户 行为 反馈 。 

号 时 行为 反馈 与 流 计算 

里 然 用 户 行为 定向 不 适用 于 搜索 广告 ， 但 是 用 户 在 一 个 会 话 内 的 一 系列 查询 如 
果 能 够 快速 处 理 ， 还 是 会 对 准确 理解 用 户 意 图 有 帮助 。 除 了 这 样 的 短 时 用 户 行为 反 
饶 ， 在 广告 业务 中 还 有 以 下 一 些 需要 快速 对 在 线 日 志 进 行 处 理 的 场景 。 
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图 13-2 广告 网 络 系统 架构 示意 

(1) 实时 反 作 弊 。 反 作弊 是 所 有 广告 系统 都 需要 的 模块 ， 关 于 反 作 弊 具体 的 技 
术 将 在 第 15 章 中 介绍 。 在 ADN、DSP 这 类 依赖 于 站 外 流量 的 广告 产品 中 ， 疏 虫 流量 、 
突 友 的 作弊 流量 都 会 对 广告 主 预算 产生 巨大 的 影响 。 因 此 ， 在 所 有 需要 实时 数据 处 
理 的 模块 之 前 ， 需 要 一 个 实时 反 作 首 的 模块 ， 对 系统 产生 的 日 志 进 行 过 渡 。 

(2) 实时 计 费 。 广 告 产品 需要 一 个 实时 计 费 的 模块 ， 以 便 将 那些 预算 消耗 元 的 
广告 及 时 下 线 ， 避 免 系 统 损失 。 

(3) 短 时 用 尸 标 签 。Hadoop 上 计算 用 户 标 签 t ( u ) 往往 需要 比较 长 的 更 新 


周期 ， 如 每 天 。 而 及 时 利用 用 户 分 钟 级 别 的 行为 数据 加 工 用 户 短 时 兴趣 的 标签 ， 衫 
证 明 对 广告 效果 帮助 很 大 扭 。 这 种 短 时 用 户 标签 也 需要 一 种 数据 准 实时 处 理 的 工 
具 


-—-0 


(4) 短 时 动态 特征 。CTR 预 测 中 的 动态 特征 ( 见 13.5.47 ) 也 可 以 根据 分 钟 
级 的 数据 补充 调整 。 

这 些 场景 对 数据 处 理 系统 提出 了 新 的 挑战 : 简单 的 基于 Hadoop 的 离线 挖掘 模式 
不 再 适用 了 ， 需 要 一 个 灵活 的 计算 框架 ， 能 够 实时 流 式 地 接受 线 上 日 志 ， 并 用 预先 
组 织 好 的 一 组 处 理 过 程 来 加 工 这 些 数据 ， 得 到 随时 可 以 被 使 用 的 结果 。 这 样 的 需求 
众生 了 流 计算 平台 。 以 上 面 的 几 个 广告 系统 中 实时 处 理 的 任务 为 例 ， 它 们 组 成 的 处 
理 流程 可 以 用 图 13-3 来 示意 。 
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图 13-3 广告 系统 中 的 流 计算 任务 流程 示意 
图 13-3 的 流程 非常 类 似 于 一 组 有 依赖 关系 的 MapReduce 任 务 ， 但 是 由 于 数据 实 
时 处 理 的 需求 ， 它 需要 的 计算 架构 与 MapReduce 是 不 同 的 。 一 个 流 计算 的 基础 平台 
应 该 能 够 自动 完成 数据 在 不 同 任务 间 的 调度 以 及 任务 内 部 的 分 布 计算 。 流 计算 平台 
有 若干 开源 工具 可 供 选择 ， 其 中 _ storm 的 编程 接口 与 Hadoop 很 相似 ， 使 用 起 来 相 
当 方便 ， 可 以 参考 9.5.8 节 中 的 介绍 。 
虽然 计算 逻辑 上 接近 ， 流 计算 与 MapReduce 有 着 本 质 的 不 同 : MapReduce 是 通 


过 分 布 式 文件 系统 尽 可 能 对 计算 进行 调度 ， 而 流 计 算 则 是 在 各 台 服 务 器 之 间 调 度数 
据 来 完成 计算 。 这 使 得 它们 的 适用 场景 也 有 着 很 大 的 区 别 : 流 计 算 适 用 于 准 实时 、 
快速 的 数据 统计 和 反馈 ， 但 是 由 于 是 在 调度 数据 ， 所 以 并 不 适合 于 海量 数据 的 批量 
计算 ; 而 MapReduce 更 适用 于 数据 量 非 常 大 ， 但 是 计算 实时 性 要 求 并 不 太 高 的 情 

形 。 实 践 中 ， 往 往 需 要 两 者 结合 来 达到 | 数据 量 和 实时 性 两 方面 的 要 求 。 


13.4 广告 检索 


大 量 中 小 广告 主 参 与 的 竞价 广告 市 场 中 ， 复 杂 的 定向 条 件 对 检索 技术 提出 了 新 
的 要 求 。 倒 排 索引 是 搜索 引擎 的 关键 技术 ， 而 广告 的 检索 上 也 采用 这 样 的 框架 。 但 
是 广告 的 检索 问题 也 有 一 些 自身 的 特点 和 需求 ， 基 本 的 倒 排 索引 技术 在 广告 检索 中 
遇 到 了 两 个 新 问题 。 

(1) 广告 的 定向 条 件 组 合 可 以 看 成 是 一 个 由 与 或 关系 连接 的 布尔 表达 式 ， 这 样 
的 文档 显然 与 搜索 引擎 面 对 的 Bow 文 档 不 太一 样 ， 这 里 存在 着 有 针对 性 的 检索 性 能 优 
化 空间 。 

(2) 在 上 下 文 关 键 词 或 和 用 户 标 签 比较 丰富 时 ， 广 告 检索 中 的 查询 可 能 相当 
长 ， 甚 至 会 由 上 百 个 关键 词组 成 ， 这 种 情况 下 的 检索 也 与 搜索 引擎 中 主要 由 1~ 4 
个 关键 词组 成 的 查询 有 很 大 区 别 。 试 想 ， 如 果 将 100 个 关键 词 同 时 输入 搜索 框 中 ， 
返回 的 结果 会 是 你 想 要 的 吗 ? 

这 些 差 异 使 得 广告 中 使 用 的 检索 技术 在 基本 的 倒 排 索引 之 上 有 所 发 展 ， 下 面 将 
具体 讨论 上 面 两 个 问题 。 


13.4.1 布尔 表达 式 的 检 


广告 检索 与 普通 搜索 引擎 检索 的 第 一 个 不 同 是 布尔 表达 式 的 检索 问题 。 在 受众 
定向 的 售卖 方式 下 ， 一 条 广告 文档 不 能 再 被 看 成 是 ”BoN， 而 是 应 该 被 看 成 一 些 定 内 


条 件 组 合成 的 布尔 表达 式 ， 如 下 面 的 几 个 例子 。 

a= (ageE {3}NgeoE {Atm} ) U (geoE{ 广 东 JngenderE{ 男 ) ) 

a= (age€{3}NgenderE{Z} ) U (geo /E {itm , 广东 }) 

a= (age€{3}NgenderE{#}Ngeo /€(J FR} ) U (statec(J 7k) 
NgenderE {Zz} ) 

a= (age€ {3 , 4} ) U (geoE {7 R}NgenderE (E) ) 

a= (state /E{ 北 京 ， 广 东 } ) U (ageE{3, 4}) 

a-(state /E{ 北 京 ， ZR) ) U (ageE{3}Nstate€ (dU) ) 
U (statec(J R}NgenderE (E) ) 

a= (agec(3)flstatec {Ith} ) U ( statee (J R}NgenderE {Zz} ) 

这 些 例子 用 布尔 表达 式 表 示 广 告 的 定向 人 群 ， 并 且 写 成 析 取 范式 
(Disjunctive Normal Form, DNF) 的 形式 。 在 这 样 的 表达 形式 中 ， 先 要 解释 以 
下 两 个 概念 。 

(1 ) 每 个 DNF 都 可 以 分 解 成 一 个 或 多 个 交集 ( conjunction) 的 并 ,如 a, 
可 以 分 解 成 j,= ( ageE{3}ngeoE{ 北 京 } ) Mk= ( geoE{ 广 东 }JngenderE{ 男 } ) 
这 两 个 交集 。 

(2) 每 个 交集 又 可 以 进一步 分 解 为 一 个 或 多 个 赋值 集 (assignment ) 的 交 , 
LA j AB, 可 以 分 解 为 ageE{3} 和 geoE{ 北 京 } 这 样 两 个 赋值 集 。 为 了 后 面 算 
法 摘 述 方便 ， 我 们 定义 Assignment、Conjunction 和 DNF 的 数据 结构 如 下 。 


class Assignment { 

public: 

int attribute; // 该 hssignment 指 定 的 标 丛 类 型 
bool belong; // 表示 该 Assignment 是 属于 还 是 不 属于 
int value; // 该 hssignment 指 定 的 标 个 取 什 

}; 


// 一 个 或 多 个 hssignment 的 交 


typedef vector<Assignment > Conjunction; 


// —^À$ Conjunction) # 
typedef vector<Conjunction> DNF; 





布尔 表达 式 检索 的 问题 有 两 个 特点 ， 这 两 个 特点 是 设计 算法 的 重要 依据 。 首 
先 ， 当 某 次 广告 请 求 的 定向 标签 满足 某 个 Conjunction 时， 一 定 满足 包含 该 
Conjunction 的 所 有 广告 ， 这 说 明 只 要 对 Conjunction 建 立 倒 排 索引 ， 并 加 上 一 层 
Conjunction 一 AD 的 辅助 索引 即 可 。 其 次 ,在 Conjunction 的 倒 排 索引 中 ， 有 一 
项 直觉 可 以 帮助 我 们 减少 计算 : 令 sizeof (query ) 表示 广告 请 求 中 的 定向 标签 个 
数 ， 而 sizeof ( Conjunction ) 表示 某 Conjunction 中 的 含有 “GE” 的 
Assignment 数 目 ， 当 sizeof ( query ) «sizeof ( Conjunction ) BY , i% 
Conjunction 一 定 不 满足 该 次 请 求 。 

根据 上 述 两 个 重要 特点 ， 可 以 设计 出 为 布尔 表达 了 式 检索 定制 的 算法 。 我 们 以 参 
考 文献 [76] 中 的 算法 为 例 介绍 这 种 思路 。 该 算法 维护 一 个 两 层 的 倒 排 索引 ，, 即 上 面 
所 说 的 Conjunction aD ARRS], 后 一 个 索引 按照 “或 ”的 关系 进行 检索 ， 而 前 
一 个 索引 有 不 太一 样 的 结构 : 在 Conjunction 的 索引 中 ， 把 每 个 Conjunction 分 解 
成 一 组 ( 键 , 值 ) 对 ， 例 如， 将 ageE{3，4} 分 解 成 ageE{3} 和 ageE{4} 两 个 


Term， 这 些 Term 即 是 倒 排 索引 的 键 ， 而 “E” 和 “E” 操 作 符 放 在 倒 排 链表 的 具 
体 元 素 上 。 利 用 上 文 所 说 的 ”Assignment 个 数 的 约束 ， 我 们 可 以 做 的 优化 是 将 这 一 
倒 排 索引 按照 sizeof ( Conjunction ) 分 成 若干 部 分 ， 以 提高 检索 效率 。 仍 然 以 上 
文 的 一 组 广告 为 例 ， 这 组 广告 的 DNF 可 以 按 如 下 的 方式 分 解 成 一 些 Conjunctions : 

a=j,Uj, ,a=j,Uj, ,a-j,Uj, , a-j,Uj, ,a=jUj. ,a=jUjUj,,, 
a,-j,Uj, 

其 对 应 的 倒 排 索引 也 可 以 很 容易 地 写成 下 面 的 形式 : 

jj 一 {a，as，aj ，j 一 {aj ,一 {aj jia, a, af j ta,, at, 
jt{a,, a,, a,}, 

j {a, ,a.} 

可 以 注意 到 ， 所 有 Conjunction 中 最 大 的 size 为 2， 可 以 将 倒 排 索引 分 成 3 部 
分 ， 每 部 分 中 所 有 的 Conjunction 其 size 都 一 样 ， 按 照 这 样 的 准则 ， 最 终 形成 的 
Conjunction 倒 排 索 引 应 为 下 面 的 形式 : 

size-0: ( geo ,北京 ) 一 { (j. ,7€) y, (geo ,广东 ) 一 { (j. TA 
epatis actu 

size-1:(age, 3) ~{(j, , €) 3, (age, 4) 7((3. , €) } 

size=2: (age, 3) 7C((3, , €) , (i, , €), (i, , €), (geo, db 
m pp 6g. , E )}, (gender , ww) 003. 1:65) 443; em eg 
(gender; =: wc) s (do lI ter T ERI itd. «7 
= 的 

其 中 size 为 0 的 部 分 包含 哪些 所 有 只 有 “/E” 操 作 符 的 Conjunction, 
为 了 保证 给 定 一 个 Assignment ，size 为 6 的 Conjunction 至 少 出 现在 一 个 倒 排 表 
中 ， 算 法 引入 zZ 为 一 个 特殊 的 Term， 并 且 将 所 有 size 为 零 的 Conjunction 都 放 人 在 其 
倒 排 表 中 ， 并 赋 以 一 个 “会 ”操作 符 。 


在 第 10 章 的 标准 倒 排 索引 类 基础 上 加 以 改进 ， 将 DNF 索引 类 的 代码 列 在 下 
面 ， 方 便 大 家 参考 。 在 这 段 代 码 中 ，IndexDNF 对 应 上 面 提 到 的 DNF 的 倒 排 索引 ， 而 
IndexConj 对 应 于 Conjunction 的 一 组 倒 排 索引 ， 其 中 每 一 个 倒 排 索引 中 所 有 的 
Conjunction 都 具有 相同 的 size。 
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13.4.2 VER 


亮 价 广告 与 搜索 的 检索 问题 还 有 一 点 不 同 ， 有 时 ， 竞 价 广告 系统 需要 处 理 很 多 
个 标签 组 成 的 查询 。 让 我 们 考虑 上 下 文 定向 的 情形 : 当 通 过 网 页 内 容 的 关键 词 来 匹 
配 广告 候选 时 ， 往 往 需要 用 十 多 个 甚至 几 十 个 关键 词 去 查询 广告 ， 再 进行 eCPM 排 
序 。 在 这 一 情形 下 ， 如 果 仍 然 采 用 一 般 搜索 引擎 对 查询 的 处 理 办 法 ， 则 会 陷入 两 难 
的 境地 。 如 果 假 设 各 个 关键 词 之 间 是 “与 ”的 天 系 ， 基 本 上 不 可 能 得 到 任何 匹配 的 
结果 ; 如 果 假 设 各 个 关键 词 之 间 是 “或 ”的 天 系 ， 那 么 在 检索 阶段 融会 返回 大 量 相 
天 性 很 差 的 候选 ， 给 后 续 排序 的 效率 市 来 很 大 的 挑战 。 

同样 地 ， 当 用 户 的 兴趣 标签 较 丰 富 时 ， 也 存在 类 似 的 挑战 。 简 单 地 比较 一 下 搜 
索 与 搜索 重 定向 广告 束 可 以 理解 为 什么 展示 广告 的 查询 信号 会 丰富 很 多 : 在 搜索 
中 ， 仅 仪 需要 根据 用 户 当前 输入 的 天 键 词 进行 检索 ; 而 在 搜索 重 定向 广告 中 ， 虽 然 
用 的 也 是 搜索 信和 号， 但 是 需要 将 用 户 一 段 时 间 内 的 搜索 关键 词 全 部 考虑 ， 显 然 这 样 
的 查询 要 长 了 很 多 。 在 此 也 可 以 看 出 ， 搜 索 广 告 完全 可 以 及 用 一 般 的 检索 技术 ,但 
是 展示 广告 需要 有 新 的 方案 。 

考察 上 面 问题 产生 的 原因 会 友 现 ， 在 长 查询 的 检索 情形 下 ， 我 们 实际 上 希望 的 
是 查询 与 广告 候选 间 的 相似 程度 尽 可 能 高 ， 但 任何 一 个 关键 词 是 否 出 现在 文档 中 其 
实 都 不 关键 。 这 样 以 查询 和 文档 间 的 相似 程度 为 目标 的 检索 问题 称 为 相关 性 检索 。 

解决 相关 性 检索 的 基本 思路 是 在 检索 阶段 就 引入 某 种 评价 阔 数 ， 并 以 此 浮 数 的 
评价 结果 决定 返回 哪些 候选 。 评 价 函 数 的 设计 有 两 个 要 求 : 一 是 合理 性 ， 即 与 最 终 
排序 时 使 用 的 评价 函数 近似 ; 二 是 高 效 性 ， 即 需要 在 检索 阶段 实现 快速 评价 算法 ， 
否则 就 与 在 排序 阶段 对 每 个 候选 分 别 计算 没有 差别 了 。 人 研究 表明 ， 当 选用 线性 评价 
EE. ( 变量 为 各 标签 或 关键 词 ) 且 各 权重 为 正 时 ， 是 可 以 构造 出 这 样 的 快速 检索 算 
法 的 。 假 设 续 性 评价 函数 的 形式 如 下 陈 所 示 : 


score(a, c) —  — ov, (a) (13.5) 


其 中 F (a) 和 F ( c) 分 别 表示 广告 文档 a 和 和 上下文 特征 c 上 不 为 零 的 特征 集合 ， 
比如 查询 中 的 关键 词 ， 而 v, ( a ) 表示 t 这 一 特征 在 a 广告 上 的 贡献 值 。 常 用 的 VSM 模 
型 不 符合 这 一 要 求 ， 但 是 如 果 不 考虑 余弦 距离 中 的 归 一 化 分 母 ， 可 以 用 这 一 线性 函 
数 在 检索 阶段 做 近似 的 预 评估 。 这 种 情况 下 ， 即 为 关键 词 t 在 上 下 文中 的 TF- 
IDF , Mv, (a ) 即 为 t 在 某 广 告 a 中 的 TF-IDF。 昌 然 q， 在 不 同 的 查询 中 取 值 不 同 ， 但 
在 同一 次 查询 中 是 一 组 常数 。 

将 线性 函数 评价 过 程 加 速 的 关键 在 于 使 用 两 个 上 界 : 一 是 某 个 关键 词 t 在 所 有 
文档 上 贡献 值 的 上 界 ， 记 为 u, ; 二 是 某 个 文档 中 所 有 关键 词 的 上 界 的 和 ， 这 实际 上 是 
该 文档 对 当前 查询 评价 函数 的 上 界 ， 记 为 ”U,。 巧 妙 地 利用 这 两 个 上 界 可 以 在 检索 过 
程 中 排除 掉 大 量 不 可 能 胜出 的 候选 ， 从 而 达到 快速 评价 的 目的 。 这 一 方法 即 为 
Andrei Broder 等 人 提出 的 WAND (Weak AND) 算法 "”， 也 是 上 下 文 定向 广告 和 内 容 
推荐 产品 中 非常 实用 的 快速 检索 算法 ， 我 们 以 此 算法 为 例 ，, 介绍 一 下 相关 性 检索 的 
算法 过 程 。 

WAND 的 检索 过 程 如 图 13-4 所 示 ， 图 中 每 个 关键 词 ( Term ) 带 有 一 条 倒 排 链 ， 链 
表 中 的 每 一 项 是 包含 此 关键 词 的 文档 ID， 用 阴影 表示 。WAND 算 法 用 到 一 个 小 项 的 排 
序 堆 结 构 : 该 堆 维护 着 到 目前 为 止 的 top-K 结果 ， 当 新 的 候选 产生 时 ， 如 果 堆 尚 
未 装 满 或 相关 度 大 于 推 顶 文 档 的 相关 度 ， 则 采用 扒 排 序 的 方法 将 其 插入 堆 ， 否 则 就 
可 以 直接 抛弃 此 候选 。 检 索 过 程 和 迭代 地 执行 下 面 两 个 步骤 。 

( 1) 将 各 关键 词 对 应 的 倒 排 链 按照 其 最 小 的 文档 ID 升序 排列 。 

(2) 按 前 面 的 升序 依次 访问 各 关键 词 t， 并 累加 其 对 应 的 u 至 U ， 直 至 U 大 于 
堆 顶 。 设 此 时 到 达 第 _n-1 个 关键 词 ( 图 13-4 中 n-3) ， 如 果 此 时 第 8 个 关键 词 倒 
排 链 和 第 n-1 个 关键 词 倒 排 链 的 最 小 文档 ID 一 致 ， 则 计算 该 文档 准确 的 相关 性 ， 


如 果 仍 然 大 于 堆 项 ， 则 该 文档 推 入 堆 ; 如 果 最 小 文档 ID 不 一 致 ， 说 明 该 候选 无 胜出 
的 可 能 ， 于 是 在 前 n 个 关键 词 倒 排 链 中 挑选 一 个 ， 将 链表 头 跳 到 第 n-1 个 关键 词 倒 
排 链 的 最 小 文档 ID， 然 后 流程 跳 转 至 第 1 步 。 


termz*,u-* 





图 13-4 NAND 相 关 性 检索 过 程 示意 
读者 可 以 自行 验证 ，WNAND 算 法 的 执行 过 程 能 够 利用 两 个 上 界 在 检索 过 程 中 快速 
地 排除 大 部 分 候选 。 此 算法 执行 过 程 的 伪 代 码 如 下 。 
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一 条 件 严格 限制 了 评价 函数 的 适用 学 围 ， 然 而 ， 如 果 考 虑 到 广告 的 排序 模型 经 单 采 
用 广义 线性 模型 的 建 模 方法 的 话 ， 线 性 评价 销 数 的 适用 范围 束 会 大 大 扩展 。 我 们 及 
用 后 面 提 到 的 基于 广义 线性 模型 的 CTR 预 测 模 型 也 可 以 套用 此 框 染 。 


13.5 zar Tul 


广告 点 击 率 预测 的 目的 是 广告 排序 ， 但 不 能 套用 搜索 里 的 排序 问题 : 点 击 率 预 
测 不 能 像 搜索 那样 只 要 求 结 果 排序 的 正确 性 ， 因 为 点 击 率 需要 乘 以 点 击 单价 才 得 到 
最 后 的 排序 。 另 外 ， 在 “DSP 中 ， 需 要 尽 可 能 准确 地 预测 ecCPM 用 于 出 价 。 因 此 ， 作 


为 各 种 广告 系统 中 通用 的 一 项 技术 ， 操 击 率 预测 更 适合 被 建 模 成 回归 | 间 题 而 不 是 排 
序 间 题 。 


天 于 操 击 率 预测 的 万 法 ， 很 自然 的 可 以 想到 基于 统计 的 估计 : 


pues X h;/N (13.6) 

Hhh 是 表示 第 i 次 展示 被 点 击 的 次 数 ， 一 般 情形 下 为 8 或 者 1。 但 是 ， 如 果 某 
种 (u, c) 组 合 的 情形 下 ， 广告 a 没有 被 展示 过 或 点 击 量 很 稀 玻 ， 残 无 法 通过 历史 数 
据 来 统计 点 击 率 了 。 容 易 想 到 的 解决 方案 是 将 要 展示 的 广告 a 和 一 个 展示 过 的 广告 a* 
类 似 ， 则 可 以 预 估 a 的 点 击 率 与 a 接近 。 如 果 将 (a, u.c ) 投影 到 特征 空间 比较 ， 则 
演化 为 即将 介绍 的 点 击 率 模型 。 


13.5.1 点 击 率 预 测 | 模型 


我 们 把 点 击 事件 h 看 成 一 个 二 元 取 值 的 随机 变量 ， 那 么 其 取 值 为 真 ( h=1 ) 的 概 
率 融 是 点 击 率 。 因 此 ， 扣 击 事件 的 分 布 可 以 写成 以 点 击 率 H 为 参数 的 二 项 分 布 


(binomial distribution) : 


p(h) = u^(1 — p)!’ HS] 

而 点 击 率 预测 模型 的 作用 是 在 (a, u, c) 组 合 与 点 击 的 概率 h 之 间 建 立 函 数 关 

系 ， 这 可 以 表示 成 对 nu (a,u,c)-p(h-1la,u, c) 的 概率 建 模 问题 ， 可 以 很 自 
然 地 想到 的 基础 模型 是 逻辑 回归 ( Logistic Regression, LR) : 


( "m. LI 
p(h|a,u,c) = o((2h — 1)w ' a(a,u,c)) = fı + i eb (13.8) 


其 中 x 表示 (a, u, c) 组 合 上 的 特征 矢量 ， 即 前 面 介绍 过 的 受众 定向 的 输出 及 
其 派生 的 其 他 特征 ; 为 各 特征 的 加 权 系数 ， 也 就 是 此 模型 需要 优化 的 参数 ; (2h 
-1 ) wx 这 一 线性 函数 的 输出 经 过 逻辑 s 型 sigmoid 卫 数 G (z ) ={1+e7} “BRATS 
(0,1) KEA , Heh ( 2h-1 ) 是 为 了 将 (0,1) 的 点 击 变量 变换 到 集合 (-1, 
1) 上 。 从 方法 上 看 ，LR 是 利用 线性 函数 来 解决 非 线性 目标 ， 也 属于 广义 线性 模型 
Pm。 可 以 推导 得 到 ， 罗 辑 回归 正 是 当 目标 值 的 分 布 服从 伯 努 利 分 布 时 广义 线性 模型 
(55) 

的 一 个 特例 ， 映 射 函 数 为 ogit (p) -log 了/ 。 因 此 ,有关 广 义 线性 模型 
的 性 质 和 结论 也 适用 于 LR 模型 。 

实践 中 ， 由 于 LR 模型 使 用 的 特征 较 多 ， 并 且 有 相当 多 的 特征 在 训练 集中 出 现 的 
次 数 并 不 多 ， 为 了 避免 过 拟 合 ， 还 需要 在 最 大 似 然 估计 时 加 入 正则 化 项 。 如 果 采 用 
L,-norm 2 ， 则 此 优化 问题 可 以 表达 成 : 





T T l 
min ic [MR In(14- e Vhi7Dw elastics) 4 jw (13.9) 


13.5.2 优化 算 ; 


对 于 LR 模型 ， 我 们 通常 采用 最 大 似 然 估 计 来 求解 加 权 系 数 w。LR 模 型 的 最 大 似 然 
解 有 很 多 计算 方法 ， 而 我 们 在 实践 中 重点 天 注 其 收敛 速度 以 及 在 面 对 海 量 数 据 时 分 


fox SAVE. COM , WAR A A , BBA ESOS SES ERES 
优化 方法 改进 的 迭代 缩放 ( Improved Iterative Scaling, IIS ) 算法 "也 可 
以 用 于 _LR 的 更 新 。 这 种 方法 虽然 物理 意义 明确 、 计 算 简 单 ， 却 有 着 收敛 速度 慢 的 致 
命 弱点 ， 因 此 并 不 适用 。 

由 于 LR 模 型 不 人 存在 闭 式 解 ， 其 优化 方法 必然 需要 迭代 进行 。 典 型 的 
MapReduce 分 布 式 计算 框架 下 ， 由 于 磁盘 被 用 作 和 迭代 之 间 的 数据 人 交换 手段 ， 人 夫 代 的 
次 数 直 接 决定 着 训 | 练 算法 的 效率 。 因 此 ， 在 每 个 迭代 中 尽 可 能 完成 更 复杂 深入 的 运 
算 、 减 少 迭 代 次 数 是 此 处 的 关键 。 这 样 的 思路 适用 于 LR 模型 训练 ， 也 适用 于 许多 
MapReduce 下 的 需要 迭代 求解 的 机 器 学 习 算法 。 

1.L-BFGS 

在 目标 消 数 可 导 的 一 般 优化 问题 中 ， 拟 牛顿 法 是 一 族 最 常用 的 方法 ， 因 此 也 可 
以 直接 应 用 于 LR 问题 的 求解 。 不 过 ， 从 18.2.4 节 中 的 BFGS 的 代码 可 以 看 出 ， 它 需 
存储 赫 斯 矩阵 的 逆 和 矩阵 的 近似 B.， 因 此 空间 复杂 度 为 0 (D') 。 在 点 击 率 预测 这 样 的 
变量 维 数 很 高 的 优化 问题 中 ， 赫 斯 矩阵 的 尺寸 过 大 ， 根 本 无 法 在 内 存 中 存放。 

解决 这 一 问题 的 思路 是 仅仅 保留 最 近 几 次 更 新 的 一 些 状 态 矢量 ， 然 后 利用 这 些 
状态 矢量 和 当前 的 梯度 ， 直 接 计算 出 更 新 方向 ， 这 种 方法 称 为 有 限 内 存 
BFGS ( Limited-memory BFGS , L-BFGS ) L-BFGS 的 核心 思想 是 根据 前 几 次 的 函 
数值 变化 和 梯度 变化 近似 地 拟 合 赫 斯 矩阵 的 送 。 先 来 回顾 一 下 ， 在 BFGS 的 迭代 过 
程 中 ， 赫 斯 矩阵 逆 的 更 新 公式 可 以 表示 为 : 





T T T 
SLY, „S; 81.8, — 
Bia 一 | 一 a B; | = sa) + E = V, BV, 十 Pk8kS, (13.10) 
Ui. Sk Ui. Sk Ui. Sk 
-— 下 ma aF - 


见 16.2.4 节 。 如 果 对 此 从 代 公式 展开 并 做 截断 ， 只 保留 前 m 次 的 状态 量 ， 则 B.， 可 近 


似 地 表示 为 : 
Bia = (Vj —-— Vial : nd — V;) 
T Dk-m-1 (Vj PUN a 8, sail Vk-md2 NW t Vi) (13.11) 
+Ph-msa(V 4 2i E S E (Vi m43 T Vii) eser 内 SRS 
< T 2 X 0 
其 中 Vk 二 了 一 PkYkSk o TU 情 旦 没 定 的 赫 斯 逆 的 初 值 。 为 降低 计算 
复杂 度 ， 实 际 中 比较 有 
0 
效 的 选择 是 令 忆 为 一 个 对 角 阵 : 
和 Pa Pa 2 
B; — rl = (Sg 19x | Ds 在 这 样 的 表示 下 ，B 可 以 在 每 次 
迭代 中 高 效 地 计算 出 来 的 。 参 考 文献 [54] 中 进行 的 实验 研究 表明 ， 这 类 有 限 内 存 的 
一 阶 方法 是 可 行 而 且 有 效 的 。 下 面 附 上 L_-BFGs 和 迭代 求解 的 代码 片段 
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容易 验证 ， 上 面 每 一 步 和 迭代 的 空间 和 时 间 复 杂 度 都 降 到 了 mxD， 如 果 选 择 一 个 
较 小 的 m， 就 可 以 认为 其 复杂 度 接 近 线性 ， 这 在 大 多 数 较 高 维度 特征 空间 上 建 模 的 应 
用 中 就 可 以 达到 实用 水 平 了 。 注 意 ， 在 迭代 的 前 m-1 步 ，L-BFGS 和 BFGS 是 没有 区 别 
的 。 

2.Trust-Region 法 

除了 L-BFGS ,Trust-Region 法 也 被 证 明 对 求解 ”LR 问题 很 有 效 ， 而 且 往 往 可 
以 更 快 地 收 剑 所。 不过， 在 点 击 率 预 测 的 问题 中 ， 同 样 因为 模型 的 维 数 可 能 很 高 ， 
直接 用 公式 10. 14 来 解 Trust-Region 的 子 问题 仍然 是 不 现实 的 。 

对 于 这 样 高 维 的 问题 ， 可 以 采用 共 斩 梯度 法 ( conjugate gradient 
method ) 吧 来 求解 Trust-Region 的 子 问题 。 当 目标 孙 数 为 二 次 正定 函数 
f(x) +Vf(x)'s+ as 

2 Hj, HAARALA n ( 特征 维 数 ) 次 迭代 

后 达到 收敛 ， 避 免 了 存储 和 计算 赫 斯 矩阵 。 与 无 约束 优化 中 的 共 斩 梯度 法 略 有 不 同 


的 是 ， 这 里 需要 满足 | 3 | < ôr 的 约束 条 件 ， 考 虑 到 子 算法 中 位 移 量 是 递增 的 * ， 
当 发 现 某 次 的 位 移 跳 出 置信 球 之 外 时 ， 将 其 沿 着 原来 的 搜索 方向 退回 到 置信 球 边 界 
即 可 。 

具体 来 说 ， 在 共 斩 梯度 法 的 每 次 迭代 中 的 ， 主 要 的 操作 是 H ”和 矩阵 与 向 量 s 的 乘 
积 ， 由 于 X= ( x,,，…, Xx， ) 症 稀 跑 的 ， 不 需要 直接 求 赫 斯 矩阵 也 可 以 得 到 该 乘积 ， 
对 于 公式 13 .9 的 目标 国 数 ， 计 算 公 式 如 下 : 
万 .s=(T+CX DX)s=s+CX '(D(Xs) (13.12) 

RHrHD-diag(D,) , D,20 ( ( 2h,-1) wx,) (1-0 ( ( 2h,-1) wx, ) }. 
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te IR? 

// delta : FRIAR X423 756, > 0 

AN 9 : 当前 的 导数 

// Out: 

Sf 3 1 XMEAR AS, 4644s, =0, 


/IU 0m : HPP RIES SRS. SHARP So] NK HRS HK 3x 
void tr cg(double delta, canst Vec & g, Vec & sg, Vec & r) 1 
Vec d, Hd; 


double r2, rnew2; 


// v — -V fiz) 
r = gcale(g, -1.0); 
r2 «s Botte, 1); 


// 初始 化 读 索 方向 


d = xj 


while (true) 1 
// Ale ««lVfQa) | m. 3&8 AES 
if (dot(r, r9) <= 0.4 * dot(g,. g29 


break; 


/A 位 移 Si41 m= 83 + a;d; H3 Ka; Iiri? /a? V? f(a)d; 
Hd = EvPrcduct(d); // itf di^ éd 
double alpha = r2 / dot(d, Hd); 
plusAssign(s, alpha, d); 


/A wi cgl ARIA Gp EH ALF ||spa0d,||? — spt ABBR 
if (dot(s, s) > dot(delta,delta)) 
{reCalS(alpha, d, s, r); break;} 


Lg Vepi— Ta. — o, V? f(x)d, 
alpha = -alphe; 
plusAssign(r, alpha, Hd); 


rnew2 = dot(r, r); 


// 更 新 下 轮 选 代 方 向 di41 = Tigi t Gd o: did ALARA 
double beta = rnew2 / r2;  // A = rinl / | ril? 
scale(d, beta); 

plusAssign(d, 1, r2; 


r2 = rnew2; 





3.ADMM 计算 框架 
从 上 节 中 Trust-Region 法 与 L-BFGS 法 的 比较 中 可 以 看 到 ， 随 着 每 轮 运 代 的 代 
价 增加 ， 和 迭代 次 数 也 随 之 降低 了 ， 因 此 有 可 能 会 带 来 收敛 速度 的 提升 。 是 否 存在 一 
种 普 适 性 的 思路 ， 使 得 我 们 可 以 对 一 般 的 迭代 求解 问题 减少 其 和 迭 代 次 数 呢 ? 学 术 界 
对 这 个 问题 也 进行 了 深入 的 研究 ， 产 生 了 一 些 颇具 启发 意义 的 方法 。 这 里 我 们 介绍 
一 种 称 为 交替 方向 乘 子 法 (Alternative Directional Method of 
Multipliers , ADMM ) “的 计算 框架 。 
从 方法 论 上 说 ， 要 降低 迭代 数目 ， 必 然 要 求 在 一 个 迭代 内 完成 更 复杂 的 计算 。 
22 f WEADMM , 需要 先 介 绍 一 下 扩展 拉 格 朗 日 方法 。168.2.1 节 介绍 了 带 约束 优化 的 拉 
格 朗 日 法 ， 如 果 只 考虑 等 式 约 束 为 一 个 线形 约束 ( Ax-b ) 的 形式 ， 可 以 构造 如 下 的 
扩展 拉 格 明日 : 
L(x, y) = f(z) - y' (Ax - b) + = | Aw - bl (13.13) 
容易 验证 ， 这 一 形式 可 以 得 到 与 标准 拉 格 朗 日 一 样 的 解 。 引 入 一 个 二 阶 惩罚 
项 ， 往 往 会 使 得 问题 求解 的 过 程 更 好 地 收敛 。 根 据 参考 文献 [14] 中 的 介绍 ， 这 一 问 
题 可 以 用 Dual ”Acsent 方 法 求解 。 而 问题 得 以 分 布 式 求解 的 关键 是 当 目标 国 数 可 以 
分 解 成 下 面 的 形式 时 ， 就 可 以 发 现存 在 有 效 的 分 解 迭代 求解 方案 : 
min f(z)+g(z) st. Azx+ Bz=c (13.14) 
对 应 的 迁 代 求 解 方案 是 一 个 x，z，y 依次 迭代 更 新 的 过 程 : 
5) 
zk+1 - arg min (glz)  (o/2)]| Azi..1 + Bz — c + srll2) (13.15) 





[Ax + Bz, - c4 8i 





2,43 — arg min (f(x) + (p/2) 


Sk41 Sk + ÁAty 41 + Bzy41- c 
为 了 表达 上 的 整洁 ， 我 们 将 y 换 成 了 归 一 化 的 形式 s= ( 1/p ) y。 在 典型 的 利用 


ADMM 分 布 式 求 解 的 问题 中 ， 上 面 的 第 一 个 公式 用 于 各 部 分 数据 的 局 部 参数 更 新 ， 第 
二 个 公式 用 于 将 各 部 分 得 到 的 局 部 优化 参数 综合 成 全 局 的 参数 ; 而 第 三 个 公式 中 对 
偶 变 量 的 更 新 则 是 使 得 整个 过 程 稳定 和 高 效率 的 关键 。 

按照 公式 13 .14 的 结构 ， 可 以 将 LR 的 优化 问题 13. 8 改写 成 下 式 : 

L | 

min A es c (DU w^) + r(v) 
st. wU-vz0, I-21.--,L 

这 里 的 1={1，…,，L} 表示 数据 集 分 裂 后 的 各 个 部 分 ，w 对 应 于 某 一 部 分 数据 
上 得 到 的 LR 参数 ( 对 应 于 公式 13.16 中 的 x) ,而 v 为 整体 决策 后 的 参数 ( 对 
应 于 公式 13.16 中 的 z ) 。D 表 示 由 第 1 块 数据 样本 的 特征 拼 成 的 矩阵 。 问 题 的 约 
束 条 件 是 表明 求解 收敛 时 各 部 分 的 参数 应 该 等 于 整体 参数 ， 这 是 非常 自然 需要 满足 
的 。 目 标 函 数 中 的 r (^w) 代表 的 是 求解 过 程 的 对 参数 的 某 种 正则 化 项 ， 比 如 公式 
13.9 中 的 L,-norm 项 。 于 是 ， 可 以 得 到 用 ADMM 方 法 迭代 求解 此 问题 的 方法 : 


(13.16) 





Why — arg min (s(D w)  (p/2)|w — v, + sti) 
t ! 


Uj..] — arg min (r(v) + (Lp/2)||v — Wey — 8,2) (13.17) 


1 l | 
Skt1 Sk + Wht tea 


我 们 来 分 析 一 下 这 一 更 新 过 程 。 

(1) 首先 ， 在 每 个 数据 分 块 上 ， 分 别 执行 第 一 个 公式 中 的 对 应 更 新 ， 得 到 该 数 
据 分 块 上 更 新 后 的 参数 ， 这 一 步 是 可 以 分 布 式 进行 的 ， 而 且 各 个 数据 块 之 间 不 需要 
通信 。 

( 2 ) 然后 ， 根 据 各 部 分 更 新 得 到 的 参数 ， 执 行 第 二 个 公式 得 到 综合 以 后 的 整体 
参数 v。 


(3) 根据 第 三 个 公 陈 更 新 对 偶 变 量 s， 并 将 更 新 后 的 v 和 ”s 分 友人 至 各 个 数据 


块 的 处 理 单 元 。 

这 一 过 程 可 以 非常 自然 地 用 MapReduce 方 式 来 实现 ， 其 中 步骤 1 对 应 着 各 个 
Mapper， 而 步骤 2 和 步骤 3 对 应 着 一 个 唯一 的 Reducer。 

我 们 可 以 将 此 过 程 与 L-BFGS 的 迭代 的 更 新 过 程 比较 一 下 : 在 L-BFGS 当中 ， 
每 个 Mapper， 即 分 布 式 的 部 分 计算 过 程 非常 简单 ， 只 需要 在 每 个 样本 上 对 参数 求 导 
数 ， 再 将 导数 昧 加 即 可 ; 而 在 ”ADMM 方法 中 ，Mapper ”计算 的 过 程 变 得 复杂 了 很 
多 ， 由 简单 的 导数 计算 变 成 了 一 个 LR 的 求解 问题 ， 也 就 是 说 Mapper 的 计算 本 身 就 需 
要 返 代 才 可 以 完成 。 但 正 由 于 在 每 个 Mapper 中 作 了 更 多 的 计算 工作 ， 使 得 整体 求解 
过 程 的 收敛 更 快 。 同 时 需要 注意 的 是 ， 实 际 上 在 每 个 apper 中 复杂 的 更 新 过 程 并 不 
会 市 来 计算 代价 的 显著 增加 ， 这 是 由 于 每 个 Mapper 所 需要 处 理 的 数据 量 有 限 ， 因 此 
可 以 放 在 内 存 中 ， 于 是 在 分 布 式 计算 中 最 主要 的 开销 即 IZ0 开销 并 没有 增加 。 可 以 
认为 ADMM 的 方法 是 用 对 局 部 内 存 的 更 多 访问 换 得 了 全 局 MapReduce 过 程 的 达 代 次 
数 减少 ， 从 而 提高 了 效率 。 该 方法 的 具体 MapReduce 编 码 实 现 并 不 困难 ， 读 者 可 以 
自行 实现 。 

里 然 是 以 LR 模型 为 例 来 介绍 ADMM 方 法 的 应 用 ， 实 际 上 这 种 方法 可 以 应 用 于 许多 
常见 的 机 器 学 习 模 型 ， 而 且 大 都 在 ”MapReduce 的 计算 框架 下 可 以 达到 减少 总 迭代 次 
数 ， 从 而 提高 效率 的 目的 。 

4.Spark 上 的 模型 优化 

大 多 数 机 器 学 习 问 题 往往 需要 进行 迭代 求解 ， 而 Hadoop 上 MapReduce 的 编程 泄 
式 约束 了 每 次 迭代 需要 由 一 个 MapReduce 的 Hadoop ”job 来 完成 。 如 图 16-3 所 示 ， 
Map 读 入 训练 数据 和 模型 ， 并 在 分 块 数据 集 上 计算 统计 量 ; Reduce 聚 合 统计 量 并 更 
新 模型 。 由 于 ”Map 将 训练 数据 从 磁盘 读 入 时 产生 大 量 I/0， 所 以 在 Hadoop 平 台 上 进 
行 一 次 迭代 的 代价 非常 昂贵 。 单 轮 迁 代 时 间 无 法 优化 ， 想 降低 模型 训练 的 时 间 只 能 
减少 模型 训练 的 迭 代数 ， 这 就 产生 了 以 上 所 讽 的 工业 界 常 用 的 模型 训练 思路 。 


(1) 降低 模型 训练 次 数 ， 通 过 特征 侧 的 方法 来 捕捉 信号 的 快速 变化 。 

(2) 增 量 求解 ， 降 低 模 型 收敛 所 需 的 迭代 轮 数 。 

( 3 ) 精心 设计 最 优化 算法 如 ADMMe5 ， 降 低 模型 收敛 所 需 的 迭代 轮 数 等 。 

如 果 能 降低 每 轮 和 迭代 的 开销 ， 模 型 训练 的 总 时 间 也 能 得 到 大 幅 的 优化 ， 于 是 便 
出 现 了 spark 这 样 的 平台 。Spark 是 将 数据 集 缓存 在 分 布 式 内 存 中 的 计算 平台 ,如果 
数据 集 的 规模 能 够 控制 在 内 存 中 ， 那 么 即使 仍然 采用 MapReduceyextkht , ATS 
POA Riselaw tiie 1/0 读 取 数据 ， 从 而 大 幅 降 低 了 单 轮 进 代 时 间 。 应 该 说， 
Spark ”的 出 现 使 得 像 点 击 率 预测 这 种 迭代 求解 的 模型 有 了 更 好 的 计算 平台 ， 也 逐渐 
在 这 些 中 等 数据 规模 的 应 用 上 有 蔡 代 MapReduce 的 趋势 。 

Spark 最 方便 的 编程 语言 是 Scala， 下 面 给 出 LR 模型 训练 在 Spark 平 台 下 的 参考 


scala 代 码 。 
























































L Trasera oe T acra == BS eee 
E eee cm o Tb d as Eo Eno ET 
a 了 了 
4a | 
EI 
= wA ee. 
7 rd er ee cm amm - SoS Sees wo me 
= "r oe om F Ce we Gp 
b P aai Ur E = -A E 
ic] A Cet Se — Se "Ag GN. 
FEST i a e e e Eo War m—tw racc el JE ome m 
1a Sa EA 2 本 io Marks , 
FE I ^m. ees LEE, 
i= -————t.m E imes Kr, 
x: Le ET Haec BOR doasdao— 4 
bb a = 
p3 m dur So) eee set cet AE 
a a Sab oe Rode Ee do un a Hon ar Lo 志 
M ad 
"E = ad 
ES] TT 
3 a SE he, qm D» uc dp 
2 Am Delo au ae mo. dmi cnc amap-ed a — o o orae -ME T 
Ses A o— d a ee tech um 
a * 
aot DI c qucm 4 don Hg = 
zt se - Set. LS gp Pec m 
"ma hee eee 
TE 人 a ee 
1a 
本 -了 ee eee Pe 
m 
L| m- .—cm ee Ti 
14 ES. ee EN 
Jaw wto.camcE E dd 
a 
3- 
"rd 
aac a4 
E 
a JUD 0 dep soo UT don oa cem 
ae a—m m 
LE] M datu = diee. 
5 um E TUE ee M TL 
a i BEG CCR bee tee eee l, Lee Pee Doe 
7 D224 Paneer cce ERGY EE 0d os] 1 winkt o — Zesianliizatis T 
ac 
LES | c cHERCELDGE. ED dim xam ae a m de 
Bal T7 lcm 
EL wa Te a mors = 
5d E -a- La oT » 
z4 J LN 
Ad =e Ei eile -A 
EE aot TT 
| Breeton -= LE Ft etl = E 
T3 awe SF DE peste. Rs ea Se 
"a 到 mn X 
E "omo face = <a P o M 
me Poe 0 ER OO 
mas + sise 42 fate 9m a Seo Y 
AI bec. doe 
Eas + when d 
3 Sed fee = 1 039 Atk. azpi atene] 
5-4 i em mec. Jo ELT Oe qe o. 000.33 eee 
E. E 
q 
BET si me bd apum o = wed ee eB red nim 
5a Sr Bs bb a ges chE 077 DN - GALE ub ost dn gp ae gH mM qoc od 
=q wed Sass, epal =| D Rowe nce kasira tee Dl «o£ Eo. Dee eee 
ee m moo 
AE TA! Over ae eee 
1 SL ee en 
EN i 
T vm d aoe = mo mm ead bom s= 
74 me -— So 
7A cAcha&—— Roca mC = D. 
mā Debica c ny. T 
a om Lieto = prebil = esas Sa Se 
Tu "ml muit = E prrcb = LO o Slick 
ra fete tx EO = mia dE 
=i mcm bum - bos - alaeck« 
=i 3 
52 dos See od oe Eeac > ol T 
EM im IE. picti e gS ee oe Ko ee 
Es emo ae e £5 E — pee © more Tae rr 
= tartalmai ë += mult 
ang "ccmdpibocmam bæ Lomwe & Se d dé ok 
er a 
Aa VA | 了 
Eu Sted i-iic o. 0 Raacu P Rorememing 


1: 
y 


Jmm aS 

Ar = ds Se 

JUST oes 

M Fl MURS nga. Eo mÉ met cbe E 

amu e modo miam eee bam me ioe BEY CDan- Iir] = caer bjs. BEDE CHama -— = 
-和 Pe. Se ee F 
oe E ecb —- te Soe mCpacm ee ee — E ee EE oe 


J a a R E r aas 
TaI ket =e Gad emo em Peep puer c d 





m = eres. ome d = SalGraditeaur too er i ekki ere eae ee, Lau 
Bo o. poo. d oaa we mb ctn er n d ES eS dne oom 
FY. Aan TF to i = 08 





Ami ee i = rimam) Io omms [imb m ] 5x Be i 


T LIE mex na 








man rere 二 一 jea G3 4-4 —oà nho Re an 4€ 000 a= 0J „neni 
BS dem mn 
了 
a 
Bal ee nde | 


DO Lors = kum 
Loss > nes Boe 


-ri + 0.5 a 2SuNen Fer ee & norm =% anama 
Wu mn oe aola 





5. 基 于 MPI 的 模型 优化 

MPI (Message Passing Interface) 是 基于 消息 传递 溺 数 库 的 标准 规范 ， 
MPICH2 是 MPI 编 程 规范 的 常用 实现 ， 人 允许 各 节点 的 进程 之 间 在 任何 时 刻 互 相通 信 
"。 对 分 布 式 机 器 学 习 来 说，MPI 平 台 的 核心 在 于 提供 了 A11reduce/Broadcast 泄 
式 ，Allreduce 范 式 可 以 实现 大 部 分 批 处 理 迭 代 的 机 器 学 习 算 法 ， 同 时 避免 了 
MapReduce 编 程 范 式 下 每 次 迭代 之 间 磁 盘 读 写 数 据 的 开销 。 在 MPI 编程 方式 下 ， 机 
器 学 习 程序 可 以 在 每 个 节点 的 内 存 中 保持 模型 ， 每 轮 达 代 中 各 个 节点 计算 好 需要 的 
统计 量 后 ， 各 个 节点 通过 Al1lreduce 通 信 得 到 全 局 统计 量 ， 之 后 进行 下 一 轮 和 迭 代 ， 
迭代 之 间 不 需要 资源 的 重新 分 配 。 

在 spark 的 最 新 版 本 中 ，Allreduce 的 Spark 实 现 treeAggregate 已 经 在 逐渐 成 
熟 。 这 里 为 了 开拓 思路 ， 以 在 YARN 上 实现 了 Allreduce 范式 并 可 容错 的 开源 库 
Rabit 为 例 来 介绍 MPI 程序 的 开发 思路 。 事 实 上 ，YARN 的 出 现 就 是 鼓励 大 家 基于 
不 同 的 算法 抽 旬 开 友 目 己 的 计算 框架 。MapReduce、Storm 和 Spark 等 计算 框架 均 可 
运行 在 YARN 之 上 。 

尽管 对 于 机 器 学 习 来 说 Allreduce 范式 是 一 个 更 好 的 选择 ， 但 是 MPICH2 j€ 
有 提供 容错 的 功能 ， 一 旦 集群 中 一 个 节点 宕 机 后 ， 整 个 程序 必须 从 头 开始 计算 。 
Rabit 为 了 解决 容错 的 问题 ， 只 实现 MPI 的 一 个 包含 AL1reduce 的 子 集 ， 容 错 难 度 降 
低 了 很 多 。 另 外 ， 大 多 数 公司 数据 存储 都 依赖 于 Hadoop， 在 MPI 和 集群 和 Hadoop 之 间 
调度 数据 成 了 高 效 处 理 数据 的 障碍 。 而 Rabit 兼 容 YARN 平 台 ， 可 以 直接 读 取 HDFS 
上 的 数据 ， 解 决 了 存储 的 问题 。 下 面 给 出 基于 Rabit 的 LR 代 码 片段 ， 可 以 看 到 ， 相 
对 于 MapReduce 来 说 ， 分 布 式 的 MPI 代 码 可 以 很 容易 从 单机 代码 上 迁移 。 


void lr eval(const Veck x, double & f x, Vec & df. x, ... 


// 伪 代 码 处 理 数据 

vector<Instance> dataset = get dataset(); 
int instance num = dataset.size(); 

double loss = 0.0; 


for(Instance instance :dataset) 

{ 
loss += calloss(instance, x); 
Ves df x instance = calGrad (instance, x); 
plusAssign(df x,1, df x instance); 

) 


// 全 局 各 个 节点 梯度 求 和 ， 并 通信 返回 给 各 个 节点 


nd H TRIN 


// 增加 正则 项 
if(rabit::GetRank == 0){ 
double regular = lambda * square( norm_2(x)); 


f_x = loss/m + regular ; 


loss/m; 


// 全 局 从 个 节点 10ss 求 和 ， 并 通信 返回 给 各 个 节点 
rabit::AllReduce<rabit::op::Sum>(&f_x,1); 





13.5.3 点 击 率 模 型 的 校正 


所 击 率 预测 问题 有 一 个 数据 上 的 挑战 ， 丈 是 正 例 和 负 例 样本 严重 不 均衡 ， 特 别 
是 在 展示 广告 点 击 率 只 有 干 分 乙 几 的 情况 下 。 在 很 多 建 模 方法 中 ， 这 样 严重 的 不 均 
衡 会 带 来 模型 估计 上 的 问题 ， 我 们 仍然 以 LR 模 型 为 例 ， 讨 论 一 下 模型 存在 偏差 的 原 
因 以 及 相应 的 校正 方法 。 

点 击 率 模型 可 能 存在 偏差 的 原因 如 图 13-5 所 示 。 假 设 分 别 用 两 个 高 斯 分 布 来 描 
述 h=6 和 h=1 情 形 下 的 特征 分 布 。 熟 悉 统 计 的 读者 都 知道 ， 高 斯 分 布 方 磊 的 最 大 似 然 
估计 是 有 偏 的 ( 为 了 得 到 方差 的 无 偏 估计 ， 需 要 将 样本 数目 减 去 DETAR) ) ， 
而 这 一 含 差 的 方 同 是 对 方差 有 所 低估 ， 并 且 样 本 数目 越 少 ， 低估 越 严 重 。 由 于 hs1 
时 的 数据 量 远 远 小 于 _h=68 时 的 数据 量 ， 对 前 者 的 方差 低估 残 会 更 严重 ， 对 应 图 13-5 
所 示 ， 前 者 的 分 布 ( 右 侧 的 高 斯 分 布 ) 会 变 得 更 窦 一 些 。 加 入 用 这 两 个 最 大 似 然 人 
计 的 高 斯 分 布 来 决定 h=0 和 hei 两 个 类 的 边界 点 ， 殊 会 出 现 比 实际 边界 点 向 右 偏 
移 的 情况 。 这 也 束 意 味 着 更 多 的 样本 被 分 到 了 h=6 这 个 类 中 ， 或 者 说 意味 着 点击 率 将 
会 被 系统 性 地 低估 一 些 。 这 里 的 解释 虽然 只 是 示意 性 的 ， 却 与 LR 模型 中 点 击 率 估计 
有 偏 的 原因 基本 一 致 。 





13-5 正 负 例 样本 不 均衡 时 点击 率 模型 存在 偏差 的 原因 示意 
所 雷 消 除 这 一 点 击 率 估计 的 偏差 并 不 十 分 困难 ， 实 际 上 对 此 偏差 的 系统 性 分 析 


可 以 上 升 到 广义 线性 模型 的 层次 来 研究 。 在 LR 模型 情况 下 ， 有 关 这 一 系统 偏差 的 量 
化 计算 和 校正 方法 可 以 参见 参考 文献 [47] 中 的 详细 介绍 。 
13.5.4 点 击 率 模 型 的 特征 

上 一 节 主 要 讨论 的 是 点 击 率 预测 模型 侧 的 问题 ， 这 一 节 我 们 来 看 特征 侧 的 问 
题 。 从 受众 定向 得 到 的 所 有 t (a,u, c) 以 及 这 些 特征 的 运算 ， 可 以 组 合 出 大 量 的 
特征 供 模型 选择 ， 这 是 大 多 数 机 器 学 习 问 题 共 同 的 方法 。 这 样 的 特征 生成 方法 是 点 
击 率 特 征 的 基础 方法 ， 不 过 在 广告 这 样 的 问题 中 也 遇 到 一 些 挑战 : 一 是 组 合 特征 数 
量 可 能 巨大 ， 使 得 模型 的 参数 数目 也 非常 大 多 ， 工 程 上 参数 更 新 和 在 线 计算 都 需要 
比较 高 效 的 设计 ; 二 是 模型 动态 性 的 本 质 要 求 参数 快速 更 新 ， 而 在 多 台 广 告 投放 机 
之 间 协 同 进行 在 线 学 习 并 非 易 事 。 

所 击 率 预测 问题 的 主要 挑战 在 于 如 何 使 模型 能 捕捉 高 度 动态 的 市 场 信号 ， 以 达 
到 更 准确 预测 的 目的 。 这 一 挑战 可 以 用 在 线 的 模型 学 习 算法 ， 或 者 用 快速 更 新 的 动 
人 态 特征 来 解决 ， 从 方法 论 上 说 ， 这 两 种 思路 是 对 偶 的 ， 但 我 们 将 重点 放 在 第 二 种 思 
路 ， 因 为 其 工程 扩展 上 更 方便 一 些 。 

1 .静态 特征 

为 什么 广告 展示 的 决策 可 以 提取 出 大 量 的 特征 呢 ? 这 是 因为 在 (a, u, c) 三 个 
维度 上 ， 都 存在 着 人 为 指定 或 机 器 生成 的 多 种 标签 ， 这 些 标签 有 的 相互 独立 ， 也 有 
的 存在 一 定 的 层级 关系 。 比 如 以 a 上 的 标签 为 例 ， 我们 介绍 过 ， 在 广告 运营 当中 ， 广 
告 会 被 组 织 成 广告 主 、 广 告 计划 、 广 告 组 、 广 告 创 意 这 几 个 层次 。 在 预测 的 过 程 
中 ， 这 样 的 层级 结构 对 于 更 稳健 地 估计 某 个 广告 ， 特别 是 新 广告 的 点 击 率 有 非常 大 
的 帮助 。 如 图 12-2 所 示 ，, 将 t (a). t(u), t(c) 以 及 t (a, u) 等 各 种 标签 任 
取 一 个 或 两 个 ， 都 可 以 都 造 出 一 个 点 击 率 模型 的 特征 ， 例 如 下 面 的 一 些 例子 : 


(cookie ( u ) =*};{creative (a) =*};{gender (u) =*}; 


(gender ( u ) =*&&topic (a) =*};{location (c) =*&&advertiser (a) 
=*}; 

{category (a) category (a) =*} 

这 些 例子 中 的 前 三 个 是 某 个 单个 标签 的 取信 生成 的 ， 其 对 应 的 特征 忌 量 等 于 这 
举 标签 的 取 值 实例 总 量 ; 中 间 的 两 个 ， 是 将 上 下 文 或 用 尸 的 某 个 标签 与 广告 的 某 个 
标 等 组 合生 成 的 ， 其 对 应 的 特征 总 量 等 于 这 两 侧 标 签 的 取 值 可 能 性 总 量 的 乘积 ; 最 
后 一 个 ， 是 常用 的 特征 ， 它 表示 的 是 广告 和 用 户 的 某 个 标签 相 匹 瑟 。 显 然 ， 由 于 组 
合 特征 的 存在 ， 可 选 的 特征 总 量 巨大 ， 对 应 的 模型 维度 也 非常 高 。 直 接生 成 所 有 可 
能 的 单 维 度 特 征 和 组 合 特征 ， 选 取出 现 频次 在 一 定 靖 值 以 上 的 ， 将 其 作为 LR 模 型 的 
特征 集合 。 这 样 的 特征 ， 我 们 称 为 静态 特征 ， 这 是 广告 点 击 率 模型 特征 生成 的 基本 
方法 。 显 然 ， 静 态 特 征 都 是 取 值 为 6 或 1 的 特征 。 

2 .动态 特征 

在 机 器 学 习 问 题 中 ， 有 一 项 很 重要 的 方法 论 ， 即 某 项 模型 侧 的 技术 ， 一 般 都 可 
以 找到 特征 侧 的 对 偶 方 案 。 那 么 如 何 设计 特征 方案 达到 与 模型 快速 演进 类 似 的 效果 
Ug ?当然 融 是 让 特征 变 成 快速 演进 的 。 如 何 才 能 让 特征 “ 动 ”起 来 呢 ? 办 法 也 很 简 
单 : 当 某 个 组 合 特征 被 触 友 时 ， 我 们 不 再 用 1， 而 是 米 用 这 个 组 合 历史 上 一 段 时 期 的 
所 击 率 作 为 其 特征 取 值 。 这 样 一 来 ， 即 使 是 同一 个 ”t (a ,u,c ) ， 在 不 同 的 时 间 
六 ， 其 所 对 应 的 特征 取 值 也 是 不 同 的 ， 这 样 的 特征 丈 是 动态 特征 。 

可 以 这 样 理解 采 用 历史 点 击 率 作为 动态 特征 : 我 们 最 终 预 测 的 是 某 个 特定 (a, 
u, c) 上 的 点 击 率 ， 而 某 个 组 合 特征 t (a,u,c) 上 的 点 击 率 可 以 认为 是 关于 最 终 
目标 的 一 个 弱 决 策 器 。 通 过 对 这 些 对 应 特征 组 合 的 弱 决 策 器 的 融合 ， 可 以 更 容易 地 
预测 该 (a, u, c) 上 的 点 击 率 。 这 样 的 方案 有 个 最 大 的 好 处 ， 那 束 是 这 些 弱 决策 本 
身 只 需要 简单 的 数据 统计 融 可 以 得 到 ， 而 不 需要 复杂 的 训练 过 程 。 因 此 ， 通 过 这 些 
简单 的 弱 决 案 器 来 捕捉 模型 的 动态 部 分 ， 整 体 的 融合 模型 残 可 以 不 必 和 那么 快速 地 更 


新 了 。 

使 用 动态 特征 的 另 一 个 好 处 是 可 以 大 大 减少 模型 的 参数 数目 : 对 于 {geo(c) 
= 北京 &&category (a) = 电 商 } 和 (geo(c) = 北京 && category (a) = 日 化 } 这 
两 个 特征 组 合 的 具体 实例 而 言 ， 如 果 采 用 静态 特征 方案 ， 需 要 对 这 两 个 实例 分 配 不 
同 的 特征 号 ; 而 采用 动态 特征 方案 时 ， 由 于 它们 等 号 前 的 部 分 都 相同 ， 因 此 可 以 在 
模型 中 共享 同一 个 特征 参数 ， 而 通过 不 同 实例 的 不 同 特征 取 值 来 分 辨 它们 。 这 样 一 
来 ， 整 体 模型 的 参数 个 数 束 由 各 种 维度 组 合 总 的 实例 数目 降 到 了 维度 组 合 的 种 类 数 
目 ， 其 离线 估计 和 在 线 计算 都 会 大 为 简化 。 

3 .位 置 偏差 与 CoEC 

使 用 动态 特征 在 实际 操作 中 还 会 碰 到 一 些 困难 ， 特 别 是 当 广 告 主 数量 不 充分 的 
时 候 。 假 设 某 广告 网 络 有 两 个 广告 位 ， 一 个 是 某 网 站 首页 首 屏 ， 另 一 个 是 某 网 站 内 
容 页 最 下 端 。 很 显然 ， 如 果 用 点 击 率 作为 直接 的 反馈 ， 前 几 天 更 多 地 投 在 第 一 个 广 
告 位 的 广告 会 表现 出 更 好 的 效果 ， 而 这 主要 是 由 于 位 置 带 来 的 偏差 。 

除了 广告 位 位 置 ， 还 会 有 其 他 一 些 非 定向 因素 对 点 击 率 有 比较 大 的 影响 ， 主 要 
的 有 广告 位 尺寸 、 广 告 位 类 型 ( 如 门户 首页 、 频 道 首 页 、 内 容 页 、 客 户 端 ) 、 创 意 
类 型 ( 如 图 片 、Flash、 富 媒体 ) 、 操 作 系统 、 浏 览 器 、 日 期 和 时 间 等 。 所 有 这 些 因 
率 ， 都 与 广告 决策 没有 关系 ， 但 是 对 点 击 率 的 影响 要 远 远 超过 定向 扩 术 市 来 的 影 
响 。 因 此 ， 在 这 些 因 素 上 占据 优势 的 广告 ， 其 点 击 率 会 被 严重 高 估 ， 如 果 和 直接 用 点 
击 率 作为 反馈 ， 也 会 造成 强 者 人 印 强 的 马 大 效应 。 

如 何 去 除 位 置 等 因素 的 影响 呢 ”如果 我 们 有 财力 和 人 力 ， 可 以 采用 眼球 跟踪 的 
设备 来 评估 用 户 对 页 面 上 广告 位 的 关注 程度 ， 在 后 续 的 统计 中 据 此 做 归 一 化 。 对 于 
一 些 极 关键 的 页 面 ， 如 搜索 广告 结果 页 ， 这 样 做 是 值得 和 可 行 的 。 但 对 于 大 量 展示 
广告 的 广告 位 来 说 ， 这 样 做 显然 不 切实 际 。 工 程 上 一 种 合理 的 办 法 是 将 某 广告 位 相 
当 长 一 段 时 期 内 的 平均 点 击 数 作为 其 关注 程度 的 近似 评估 ， 我们 把 这 一 指标 称 为 期 


望 点 击 (expected click), 

期 望 点 击 要 求 评估 的 是 在 广告 质量 完全 随机 的 情况 下 ， 广告 位 或 其 他 属性 对 应 
的 平均 点 击 率 。 要 严格 达到 此 目的 ， 需 要 采用 随机 出 广告 的 策略 进行 小 流量 测试 , 
而 这 也 只 能 用 于 搜索 广告 等 因素 简单 且 非 常 重要 的 页 面 。 在 多 个 因素 共同 作用 或 广 
告 环境 比较 复杂 的 情况 下 ， 可 以 采用 从 数据 中 近似 地 学 习 出 期 望 点 击 的 方法 。 该 方 
法 概念 上 很 简单 ， 只 用 那些 偏差 因素 作为 特征 ， 训练 一 个 点 击 率 模型 ， 这 个 模型 称 
为 偏差 模型 (bias model). 。 这 里 的 偏差 因素 指 的 是 那些 与 广告 决策 无 关 的 特征 ， 
这 些 特征 一 般 来 说 与 广告 a 无 关 。 偏 差 模 型 可 以 概念 性 地 表示 为 


teil C): gn hs Lug) (13.18) 
偏差 模型 的 形式 和 训练 方法 都 可 以 与 前 面 介绍 的 整体 点 击 率 模型 一 致 。 需 要 注 
意 的 是 ， 偏 差 模 型 需要 用 比 一 般 点 击 率 模型 更 长 时 间 的 数据 来 训练 ， 这 样 做 的 目的 


是 希望 消除 某 段 时 期 广告 质量 市 来 的 影响 。 
得 到 了 偏差 模型 以 后 ， 可 以 定义 下 面 的 归 一 化 的 点 击 率 指标 : 


2h 
A 
CMM Hbias (uj "or ) 


这 一 指标 是 点 击 与 期 望 点 击 的 比值 ， 因 此 称 为 CoEC (Click on Expected 
Click ) 。 由 于 在 分 母 上 考虑 了 位 置 以 及 其 他 因素 的 偏差 对 点 击 率 的 影响 ， 这 一 指标 
可 以 更 准确 地 表征 某 部 分 流量 上 广告 投放 的 实际 点 击 率 水 平 ， 也 比较 适用 于 点 击 肥 
馈 这 样 的 动态 特征 。 


CoEC = (13.19) 


采用 动态 特征 和 偏差 模型 的 工程 方案 ， 点 击 率 预 测 模型 训练 的 流程 分 三 步 完 
成 : 首先 ， 用 较 长 一 段 时 间 的 训练 数据 ， 只 提取 偏差 特征 并 训练 偏差 模型 ; 然后 ， 


利用 得 到 的 偏差 模型 计算 所 需 维度 组 合 上 的 CoEC 作 为 动态 特征 ; 最 后 ， 用 所 有 非 偏 
差 的 动态 特征 训练 整体 点 击 率 模型 ， 其 中 用 偏差 模型 的 输出 作为 点 击 率 的 先 验 。 利 


FH coEC 特征 的 点 击 率 模 型 训练 流程 如 图 13 -6 所 示 。 
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图 13-6 利用 CoEc 特 征 的 点 击 率 模 型 训练 流程 

4. 常 见 的 偏差 特征 

前 面 说 到 ， 除 了 位 置 ， 在 线 广告 中 还 有 一 些 重要 的 偏差 特征 是 建 模 时 应 该 考虑 
的 。 

(1 ) 广告 位 位 置 。 位 置 的 影响 在 搜索 广告 和 展示 广告 环境 下 有 一 定 的 区 别 。 对 
于 搜索 而 言 ， 页 面 布 局 简单 ， 位 置 相 对 稳定 ， 相 应 地 统计 也 比较 充分 ， 因 此 可 以 将 
位 置 视 为 离散 的 变量 ， 分别 计 算 各 个 位 置 的 EC。 而 对 于 展示 广告 ， 特 别 是 在 广告 网 
络 环 境 下 的 展示 广告 而 言 ， 位置 的 可 能 性 非常 多 ， 因此 不 可 能 对 每 种 不 同 的 位 置 都 
作为 独立 的 变量 来 考虑 。 比 较 合理 的 万 法 是 找 出 重要 影响 因素 ， 比 如 广告 位 中 心 相 
对 于 页 面 左 上 角 的 坐标 ， 用 这 样 的 连续 变量 作为 特征 来 训练 偏差 模型 。 

(2 ) 广告 位 尺寸。 尺寸 与 上 面 说 的 位 置 因素 很 类 似 : 在 创意 尺寸 选择 比较 少 的 
情况 下 ， 可 以 作为 离散 变量 来 处 理 ; 而 在 尺寸 选择 很 多 的 情况 下 ， 也 可 以 用 长 宽 等 
连续 变量 来 代替 。 对 于 搜索 广告 ， 由 于 各 创意 尺寸 一 致 ， 这 一 因素 的 影响 不 存在 。 

( 3 ) 广告 投放 延迟 。 广 告 完成 决策 逻辑 ， 并 将 最 终结 果 返 回 给 用 尸 的 整体 时 间 
长 短 对 点 击 率 有 着 非常 大 的 影响 。 如 果 在 前 并 将 广告 请 求 友 生 的 时 间 和 最 终 展示 时 
间 都 记录 下 来 ， 可 以 为 点 击 率 预测 模型 提供 一 个 重要 的 偏差 特征 。 


(4) 日 期 和 时 间 。 工 作 日 还 是 周末 ， 对 不 同类 型 的 广告 ( 如 游戏 ) 点 击 率 有 着 
明确 的 影响 ， 这 主要 是 由 于 在 不 同时 间 用 户 任务 的 集中 程度 不 同 ， 对 广告 的 关注 也 
有 所 区 别 。 时 间 的 因素 ， 即 是 工作 时 间 还 是 休 亲 时间， 也 有 着 类 似 的 特性 。 因 此 ， 
日 期 和 时 间 一 般 来 说 也 是 必须 要 考虑 的 偏差 特征 。 除 了 在 模型 中 显 式 利用 ， 往 往 还 
要 求 所 有 的 训练 过 程 都 覆盖 7 天 的 整数 倍 的 数据 ， 其 目的 也 是 为 了 避免 日 期 带 来 的 偏 
差 。 

(5 ) 浏览 器 。 浏 览 器 本 身 并 不 对 广告 效果 有 明确 的 影响 ， 不 过 由 于 各 个 浏览 
上 AD Blocker 的 覆盖 程度 有 较 大 区 别 ， 因 此 在 实际 建 模 中 其 影响 也 相当 大 。 

上 面 列举 的 几 项 都 是 在 通用 的 广告 系统 中 最 常见 的 偏差 特征 ， 也 是 建 模 时 需要 
首先 考虑 的 ， 读 者 需要 结合 具体 的 广告 产品 ， 按照 “去 除 与 广告 决策 无 关 的 影响 因 
素 ” 这 一 原则 来 确定 和 使 用 偏差 特征 。 

5 .点 击 有 反馈 的 平滑 

用 CTR 或 CoEC 这 样 的 点 击 反 馈 作 为 动态 特征 ， 大 量 的 长 尾 组 合 特征 对 于 准确 地 
预测 点 击 率 有 很 大 帮助 。 但 是 要 利用 好 这 些 长 尾 组 合 特征 ， 还 需要 解决 一 个 问题 ， 
就 是 在 统计 不 足 的 维度 组 合 上 如 何 稳健 地 统计 CTR 或 CoEC。 

以 CTR 为 例 ， 公 式 13.7 给 出 了 点 击 的 生成 模型 ， 点 击 率 就 是 这 一 模型 的 参数 。 
在 知道 每 次 展示 点 击 与 否 的 情况 下 ， 可 以 得 到 参数 hk 的 最 大 似 然 估计 为 : 


p= /N (13.20) 
其 中 N 为 总 的 展示 数 。 当 估计 某 些 数据 不 足 的 维度 组 合 上 的 点 击 率 时 ， 一 般 的 
思路 是 在 分 子 分 母 上 各 加 一 个 音量， 以 起 到 平滑 的 作用 : 
A = (a+ > hi) / (7 二 N) (13.21) 


RTEA, a/y 应 该 等 于 某 更 大 流量 范围 内 的 平均 点 击 率 。 可 是 o 和 y 的 绝对 


数值 就 没有 太 直 观 的 方法 可 以 设置 。 根 据 10.3.3 节 的 介绍 ， 也 可 以 采用 经 验 贝 叶 
斯 的 方法 来 解决 这 个 问题 。 

在 贝 叶 斯 的 框架 下 ， 可 以 把 ”bk 看 成 随机 变量 ， 由 于 公式 ”13.7 是 一 个 二 项 分 
布 ， 其 参数 h 对 应 的 共 斩 移 验 是 Beta 分 布 ， 即 : 


: 4  l(a4 
plula, B) = Beta(ula, B) 一 m: 


超 参 数 off B 其 实 束 对 应 于 公式 13.21 中 的 off Y-a。 可 以 采用 经 验 贝 叶 
斯 的 方法 来 估计 c 和 B。 将 公式 13.7 和 公式 13.22 代 入 公式 16.28 给 出 的 一 般 指数 族 
分 布 经 验 贝 叶 斯 解 ， 可 以 得 到 解 c 和 B 的 具体 EM 算法 : 


Talla ET amie (13.22) 


E-step 
N; 
ag — o9 ik > Bold = p 4 (s u 3 ns (13.23) 
i=l 
M-step 
K 
ah( mew) _ Qu( mew | anew) _ £ „he old) _ i (aold | gold 9 9, 
parr) — pla" + BP") = K ) (a; ) - plage + Be) (13.24) 
> k=l 
new new d - gold) arr" Aold 9 or 
H(A”) — pla + Br) = a Be 4g (13.25) 


其 中 M- step 需 要 解 天 于 oo 证 MEE 因而 并 不 是 闭 式 解 ， 不 过 这 一 方程 
组 用 数值 方法 求解 并 不 难 。 





点 击 率 模型 预测 的 是 点 击 事件 出 现 的 概率 ， 因 此 可 以 采用 准确 率 / 召 回 率 
(Precision/Recall , PR ) 曲线 或 接收 机 操作 特性 ( Receive Operating 


Characteristic , ROC) 曲线 来 评测 。 这 两 个 曲线 实际 上 是 对 同样 一 组 统计 数据 不 
同 侧面 的 表现 : 点 击 率 模型 是 一 个 对 点 击 事件 进行 预测 的 模型 ， 因 此 ， 对 任何 一 个 
样本 实例 ， 存 在 下 面 四 种 情况 。 

(1) 点 击 行为 被 预测 为 点 击 行为 ， 其 数目 计 为 n,。 

( 2) 点 击 行为 被 预测 为 非 点 击 行为 ， 其 数目 计 为 n.,。 

( 3) 非 点 击 行为 被 预测 为 点 击 行为 ， 其 数目 计 为 n,。 

(4) 非 点 击 行为 被 预测 为 非 点 击 行为 ， 其 数目 计 为 n,。 

对 于 这 四 个 数值 ， 有 两 种 常见 的 视角 : 一 是 观察 ” Recall=n,/ (n+n, ) 和 
Precision=n/ (n+n, ) 的 关系 ， 二 是 观察 True Positive Rate=n/ (n+n, ) 
(实际 上 True Positive Rate 和 Recall 是 一 样 的 ) 和 False Positive 
Rate-n/ (n,«n,) 的 关系 。 当 然 ， 是 否 被 预测 为 点 击 是 针对 某 个 点 击 概率 的 国 值 而 
言 的 ， 因 此 ， 通 过 取 不 同 的 国 值 ， 融 可 以 得 到 一 条 Precision/Recal1l 曲线 或 者 是 
True Positive Rate/False Positive Rate 的 曲线 ,前 者 即 为 PR 曲线 ， 而 后 
者 就 是 ROC 曲线 。 为 了 方便 理解 ， 我 们 把 上 述 的 几 个 基本 量 直 观 地 表示 在 图 13-7 
中 。 


标注 


P True Positives(n,) | False Positives(n;) 


决策 


N False Negatives( nz) True Negatives(n,) 





13-7 点 击 率 模型 评测 若干 统计 量 
实际 的 PR 曲线 可 以 参见 图 13-8 ( 左 ) 。 一 般 来 说 ，PR 曲 线 呈 下 降 的 趋势 ， 不 过 
这 并 没有 理论 上 的 保证 ， 实 际 数据 上 局 部 呈 上 升 趋势 的 PR 曲线 也 很 常见 。 对 广告 而 


niil 


, 应 该 更 加 关注 PR 曲线 的 头 部 ， 因 为 尾部 是 Recall 比 较 高 ， 也 就 是 很 多 广告 候选 
都 被 考虑 时 的 情形 ， 而 实际 的 投放 环境 中 ， 只 选择 排名 最 好 的 一 个 或 几 个 候选 。 另 
外 一 点 需要 注意 的 是 ，PR 曲 线 下 面 的 面积 是 没有 明确 的 物理 意义 ， 因 此 不 能 作为 有 
价值 的 指标 来 衡量 。 

实际 的 ROC 曲 绪 可 以 参见 图 13-8 ( 右 ) 。 一 般 来 这 ，ROC 曲 线 呈 上 升 的 趋势 ， 
不 过 这 一 点 同样 没有 理论 上 的 保证 。 与 PR 曲线 不 同 ，ROC 曲 线 下 的 面积 有 明确 的 物理 
意义 ， 它 在 一 定 程度 上 表征 了 对 h=e 和 h=1 事 件 估计 值 排序 的 正确 性 。 我 们 把 RoCc 曲 
线 下 的 面积 称 为 曲线 下 面积 (Area Under Curve，AUC ) ， 这 是 评价 点 击 率 模型 时 
常用 的 量化 指标 。AUC 哩 然 经 常 被 用 作 点 击 率 模型 的 质量 代表 ， 却 有 一 个 问题 要 引起 
注意 ， 那 就 是 即使 只 用 偏差 模型 ， 即 对 广告 排序 无 直接 贡献 的 模型 来 预测 点 击 率 ， 
AUC 往 往 也 处 于 比 随 机 猜测 高 得 多 的 水 平 上 ， 如 图 13-8 中 所 示 。 因 此 ， 模 型 对 广告 
排序 的 作用 需要 对 这 两 个 AUC 的 差 值 做 评估 才能 比较 公允 地 加 以 衡量 。 
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图 13-8 PR 曲线 ( Zr ) 与 ROC 曲 线 ( 右 ) 示例 
无 论 是 计算 ROC 曲线 还 是 PR 曲线 ， 都 是 要 统计 上 述 的 n, ,这 组 值 。 严 格 的 统 
计 方 法 需要 对 整个 测试 集 按照 模型 估算 的 点 击 率 排序 ， 不 过 这 样 的 计算 复杂 度 为 
O(n log n) (mn 为 测试 集 的 样本 数目 ) ， 显 然 在 测试 样本 量 较 大 时 无 法 实用 。 
此 ， 可 以 采用 近似 但 对 实用 来 说 足够 精确 的 方法 ， 即 将 整个 点 击 率 的 取 值 范围 划分 
成 一 组 区 间 ， 并 在 每 个 区 间 上 得 到 一 个 曲线 点 。 此 方法 的 原理 与 12.3.4 节 中 
reach/CTR 曲 线 的 生成 方法 是 一 致 的 ， 可 以 参考 该 节 的 介绍 。 


13.5.6 智能 频次 控制 | 


第 4 章 介绍 过 频次 控制 的 问题 。 在 竞价 广告 环境 下 ， 这 一 问题 有 些 变化 。 合 约 式 
广告 中 ， 由 于 广告 主 对 于 位 置 可 以 由 合约 控制 ， 因 而 可 以 在 某 个 特定 的 位 置 上 设 定 
展示 频次 ， 这 一 点 在 按 GD 方 式 售卖 的 视频 前 贴 片 广告 中 应 用 最 为 广泛 。 但 是 在 广告 
网 络 情形 下 ， 由 于 广告 主 的 创意 可 能 出 现在 各 种 媒体 的 各 种 位 置 上 ， 不 同位 置 的 有 
效 展示 有 相当 大 的 差别 。 因 此 ， 简 单 设 定 一 个 展示 数目 上 的 频次 来 控制 用 户 的 接触 
次 数 是 不 太 合理 的 。 

在 这 种 情况 下 ， 需 要 一 个 更 智能 的 频次 控制 方案 。 最 直接 的 思路 是 利用 13 .5.4 
节 中 介绍 的 EC 概念 。 由 于 EC 从 某 种 程度 上 更 接近 于 有 效 展示 数目 ， 可 以 采用 EC 上 的 
囚 积 计数 代 蔡 频次 来 控制 用 户 接触 次 数 。 我 们 把 这 种 方案 叫 作 智 能 频次 控制 |。 

在 品牌 广告 和 效果 广告 两 种 情况 下 ， 智 能 频次 控制 的 做 法 也 有 所 不 同 : 在 效果 
广告 中 ， 可 以 将 EC 的 计数 或 者 频次 的 计数 作为 点 击 率 预 测 模型 的 特征 直接 加 入 训 
练 ， 靠 点 击 率 模型 的 作用 降低 出 现 频次 过 高 的 创意 的 竞争 力 ; 在 品牌 广告 中 ， 可 以 
通过 EC 计数 上 的 直接 控制 达到 一 定 用 户 接触 程度 的 目的 ， 由 广告 主 来 直接 设 定 久 。 

竞价 广告 精细 的 效果 要 求 让 我 们 认 清 了 频次 的 本 质 : 它 与 其 他 影响 点 击 率 的 特 
征 是 平等 的 ， 并 且 应 该 放 在 统一 的 、 数 据 驱 动 的 计算 框架 下 加 以 利用 。 而 究竟 对 某 


个 创意 应 议 将 频次 控制 企 多 少 ， 也 不 应 该 是 根据 经 验 设 定 ， 而 是 应 该 放 在 竞价 的 环 
境 中 目 行 决定 。 


13.6 RASS 


在 点 击 率 预 测 中 ， 我 们 需要 采取 或 是 模型 、 或 是 特征 上 的 手段 来 捕获 动态 信 
乱 。 这 也 融 意 味 着 ， 对 采种 类 型 的 ( a ,uc ) 组 合 ， 如果 没 有 相关 历史 数据 的 支 
持 ， 很 难 对 其 合理 地 估计 点 击 率 。 由 于 线 上 我 们 总 是 使 用 统计 上 最 优 的 策略 来 投放 
广告 ， 那 些 非 最 优 的 组 合 出 现 机 会 很 少 ， 因 而 对 这 部 分 的 估计 也 就 不 准确 。 实 际 
上 ， 无 法 对 特征 空间 均匀 采样 构造 训练 集 ， 是 互联 网 问题 区 别 于 其 他 机 器 学 习 问 题 
的 重要 特点 。 

此 问题 属于 强化 学 习 的 范畴 。 直 觉 的 想法 是 牺牲 一 部 分 流量 上 eCPM 最 优 的 策 
略 ， 采 用 相对 随机 的 策略 采样 那些 效果 未 知 的 特征 空间 ， 这 称 为 探索 
(exploration ) 过 程 ; 再 根据 探索 和 正常 决策 的 总 体 流量 更 有 效 地 预测 点 击 率 ， 
这 称 为 利用 ( exploitation) 过 程 。 这 样 的 整体 策略 称 为 探索 与 利用 ， 即 E&E。 
E&E 可 以 形象 地 类 比 成 玩 老 虎 机 时 的 决策 问题 : 玩家 面 对 老 虎 机 上 A 个 有 不 同期 望 收 
益 的 手柄 ， 需 要 用 尽 可 能 少 的 筹码 探索 出 收益 最 高 的 那个 手柄 ， 然 后 利用 这 个 结果 
去 获取 回报 。 这 种 简单 的 。 A 中 选 ”1 的 研究 问题 也 称 为 多 臂 老虎 机 ( Multi-Arm 
Bandit , MAB) 所 问题 。 我 们 来 看 看 MAB 问 题 的 数学 描述 。 

假设 有 A 个 手柄 aE{1，2，…,A} ( 这 里 的 手柄 是 广告 ) ， 在 每 个 决策 时 刻 
i ( 对 应 于 广告 展示 ) ， 必 须 从 A 个 手柄 中 选择 一 个 ， 而 目标 是 优化 许多 次 决策 后 的 
整体 收益 。 每 个 广告 a 在 第 i 次 展示 的 收益 计 为 r, ( a ) ， 对 于 不 同 的 i， 这 些 收益 
是 独立 同 分 布 的 。 在 ”i 时 刻 ， 用 下 面 的 两 个 量 来 分 别 表示 该 分 布 的 均值 hr ( a) i 与 
方差 的 经 验 估计 ( 此 处 先 不 考虑 u 和 c 的 影响 ) : 


— Laeli ] e 
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Pg) ; p» ría) Vila) = - 2,, iri) ri(a)| (13.26) 
最 优 的 手柄 或 广告 定义 为 期 望 收益 最 高 的 那个 : 

a” = arg max(r(a)) (13.27) 


MAB 问 题 有 一 个 简单 的 基础 方法 ， 即 总 是 用 比例 为 { 的 一 小 部 分 流量 来 做 探索 ， 
在 探索 流量 上 随机 选择 A 个 广告 中 的 一 个 ; 在 剩余 的 1-t 比 例 的 流量 上 ， 总 是 选择 经 
验收 益 最 高 的 那个 广告 。 这 样 的 基础 方法 称 为 ”1 贫 柳 法 。 很 显然 ， 只 要 经 过 足够 多 
次 的 兰 坛 ，1+ 贫 要 法 是 一 定 可 以 找到 最 优 的 那个 手柄 的 。 既 然 如 此 ， 还 有 什么 深入 研 
究 的 必要 了 呢 ? 我 们 当然 是 希望 能 够 以 更 小 的 代价 找到 最 优 手 柄 。 这 里 的 代价 定义 为 
整个 过 程 的 回报 与 一 开始 就 总 是 选择 最 优 手柄 这 一 策略 的 回报 差 值 ， 即 探索 所 付出 
的 代价 。 对 于 一 次 选择 广告 a 的 展示 ， 这 一 代价 数学 上 的 表达 为 : 
A, = (r(a*)) — (r(a)) (13.28) 

MESEN AIME EARR (Regret ) 最 低 。 以 mn, (a ) 表示 到 i 时 
刻 为 止 分 配给 a 的 展示 数 ， 则 整体 代价 可 以 写成 : 


4 

Ri = MP ni(a)Ag (13.29) 

假设 总 共 需 要 进行 T 次 展示 决策 ， 探 索 一 些 系 统 性 的 方法 ， 使 得 我 们 在 对 最 优 广 
告 a 没 有 先 验 了 解 的 情形 下 ， 以 比较 低 的 代价 完成 这 一 过 程 ， 是 这 个 问题 研究 的 目 
标 。 这 需要 借鉴 类 似 于 贝 叶 斯 学 习 的 思想 ， 即 将 估计 的 不 确定 性 引入 解决 方案 中 , 
下 面 介绍 一 些 典 型 的 方法 。 

13.6.1 UCB 方法 

MAB 问 题 经 典 的 思路 是 置信 上 界 (Upper Confidence Bound, UCB) 方法 。 此 

方法 在 每 次 投放 时 不 是 简单 地 选择 经 验 上 最 优 的 广告 ， 而 且 考 虑 到 经 验 估计 的 不 确 


定性 ， 进 而 选择 估计 值 有 可 能 达到 的 上 界 最 大 的 那个 广告 。 


根据 这 一 思路 ， 在 每 个 决策 点 ，UCB ”的 过 程 主要 分 成 两 个 步 又 : 首先 根据 过 去 
的 观测 值 ， 利 用 某 种 概率 模型 计算 出 每 个 a 的 期 望 回报 的 UCB ; 然后 ， 选择 UCB 最 大 


的 a。 可 以 看 出 ， 这 一 算法 的 关键 在 于 如 何 计 算 UCB。 参 考 文献 [4] 中 给 出 了 一 种 
称 为 B-UCB 的 策略 ， 是 按照 下 式 计算 上 界 : 
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其 中 4As(s 十 1) 。 相 应 地 , 在 任意 一 个 时 刻 1 。。 ， 只 需要 选择 令 


B, ( i-1 ) 最 大 的 a 即 可 。 

B-ucB 的 策略 并 不 对 回报 的 具体 参数 化 模型 表达 有 所 假设 ， 而 是 仅 通 过 一 阶 和 
二 阶 的 一 些 统计 量 来 完成 策略 ， 因 而 具有 比较 好 的 普 适 性 。 这 一 策略 直觉 的 好 处 是 
我 们 不 可 能 长 时 间 地 选择 错误 的 a， 参 考 文献 [4] 中 对 这 一 点 做 了 理论 上 的 探讨 。 遗 
慨 的 是 ， 由 于 E&E 问 题 的 复杂 性 ， 实 践 中 这 些 比 较 复 杂 的 策略 并 未 体现 出 比 + 贫 区 ; 
明显 的 优势 ， 不 过 这 样 的 思路 和 方法 还 是 值得 学 习 的 。 


13.6.2 总 J bandit 


MAB 间 题 和 UCB 实 际 的 广告 问题 还 有 一 定 差距 。 实 际 广告 系统 中 的 主要 挑战 有 两 
点 : 首先 ， 需 要 探索 的 是 ( a， u, c) 这 一 组 合 空间 ， 而 不 是 简单 的 一 组 广告 ， 这 使 
得 探索 的 复杂 程度 大 大 上 升 。 以 展示 广告 为 例 ， 我 们 要 面临 的 实际 情况 是 数 十 万 的 
广告 主 、 数 百 万 的 上 下 文 页 面 以 及 数 以 亿 计 的 用 户 ， 即 使 将 这 些 信息 按 菜 种 层级 结 
构 聚合 起 来 ， 其 组 合 可 能 性 仍然 相当 庞大 ， 对 探索 是 个 挑战 。 其 次 ,对 (a,u,c) 
的 肝 一 具体 组 合 ， 并 不 像 前 文 假设 的 那样 有 一 个 确定 的 期 望 收益 ， 这 是 由 广告 问题 


的 高 度 动态 性 决定 的 。 

对 于 需要 探索 的 空间 过 大 的 问题 ， 工 程 上 比较 常用 的 思路 是 将 此 空间 参数 化 ， 
在 一 个 维 数 较 低 的 连续 空间 中 进行 探索 。 这 样 的 E&E 问 题 可 以 称 为 考虑 上 下 文 的 
bandit (contextual bandit ) 问题 。 注 意 这 里 说 的 “上 下 文 ”不 同 于 上 下 文 定向 
中 提 到 的 “上 下 文 ”， 此 处 是 指 根据 (a, u, c) 组 合 参 数 化 后 的 上 下 文 空 间 位 置 。 

考虑 上 下 文 的 bandit 的 问题 ， 代 表 性 的 思路 有 LinucB HA. MEF 
以 了 解 到 ， 这 一 方法 是 将 公式 13 .26 中 表达 的 回报 分 布 由 a 决定 ， 变 成 由 一 些 环境 特 
征 的 线性 组 合 决定 ， 也 就 是 说 ， 在 某 个 时 刻 t， 我 们 将 某 个 a 的 期 望 回报 表达 成 : 
E(r, alzia) 一 站 (a, ut, c&)0* (13.31) 

可 以 看 出 ， 这 样 的 表达 达到 了 两 个 目的 : Bio, (a.u, c) 的 组 合 空间 ， 而 
不 仅 仪 是 a 都 纳入 了 探索 的 光 围 以 内 ; 其 次 ， 用 线性 组 合 的 连续 输出 代 蔡 了 离散 的 
ID 值 ， 使 得 E&E 过 程 可 以 在 如 此 巨大 的 空间 上 实施 。 在 参考 文献 [56] 中 ， 这 一 变 
换 模 型 被 称 为 不 相交 的 线性 模型 (disjoint linear model) ， 这 里 “不 相交 ”的 
含义 指 的 是 对 于 每 一 个 广告 a 适用 独立 的 线性 变换 参数 ZL 细心 的 读者 一 定 会 友 
现 ， 这 样 的 假设 在 a 数量 巨大 时 也 会 成 为 障碍 ， 因 此 ， 在 实际 中 ， 也 可 以 在 广告 主 类 
型 或 其 他 聚合 粒度 上 使 用 不 同 的 变换 参数 。 


13.7 延 舍 思考 


1. 人 在 搜索 广告 中 ， 上 广泛 匹配 的 引入 会 给 位 置 拍卖 会 市 来 什么 样 的 影响 ? 与 此 对 
应 ， 可 能 在 机 制 设 计 上 采取 什么 策略 ? 

2. 在 一 个 CPC/CPM 渴 合 况 价 的 广告 市 场 中 ，CTR 预 估 的 系统 偏差 和 模型 误差 会 
对 市 场 产 生 什 么 影响 ? 
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程序 化 交易 的 及 展 使 得 广告 市 场 友 生 了 深刻 的 变化 : 供给 方 的 功能 简化 成 了 简 
单 的 比价 平台 ,而 需求 方 开始 承担 广告 决策 的 主要 职责 。 在 这 样 的 变化 下 ， 第 一 方 
数据 、 第 二 万 数据 和 第 三 方 数据 可 以 同时 为 广告 优化 服务 ， 于 是 广告 精准 化 、 实 效 
化 的 趋势 与 越 来 越 显 车 。 在 技术 层面 ， 这 样 的 变化 也 市 来 了 一 些 新 的 扩 术 挑战 。 

告 交易 平台 是 技术 挑战 相对 较 少 的 产品 ， 架构 也 相对 简单 。 其 主要 技术 难点 
在 于 如 何 用 可 行 的 成 本 处 理 大 流量 的 广告 请 求 ， 不 过 这 并 不 是 一 个 独特 的 技术 问 
题 ， 因 此 在 此 不 做 过 多 讨论 。 本 章 主要 介绍 两 点 相关 技术 : 一 是 各 广告 或 数据 产品 
在 进行 用 户 身份 对 应 时 的 cookie ”映射 方法 ; 二 是 如 何 优化 询 价 的 服务 成 本 ， 即 尽 
可 能 只 向 那些 可 能 赢得 提 卖 的 ”DSP 询 价 ， 这 也 是 第 11 章 介绍 的 在 线 分 配 框 染 下 的 具 
体 问题 。 

在 所 有 在 线 广告 产品 中 ， 需 求 方 平台 (DSP ) 是 算 冯 挑战 相对 较 大 的 。 首 先 ， 在 
实时 竞价 环境 下 ，DSP 需 要 提供 重 定 向 、 新 客 推荐 等 定制 化 用 尸 标 签 ， 而 这 既 需 要 与 
第 一 万 数据 和 商品 库 打通 等 繁杂 的 工程 接口 ， 又 产生 了 一 些 新 的 建 模 问 题 ， 特 别 是 
{R look-alike (新 客 推荐 ) 这 种 第 一 方 数据 和 第 三 方 数据 兼用 的 受众 定向 问题 。 
其 次 ， 需 求 万 平台 需要 像 广 告 网 络 那样 估计 点 击 率 ， 并 且 会 遇 到 比 广告 网 络 更 高 的 
准确 性 要 求 ， 另 外 还 需要 在 面向 效果 类 广告 主 时 同时 估计 点 击 价值 。 另 外 ， 实 时 况 
价 中 的 出 价 是 存在 优化 空间 的 ， 这 是 DSP 特 有 的 出 价 策略 问题 ， 也 对 DSP 的 收益 影 
响 很 大 。 忆 之 ， 实 时 竞价 的 开放 市 场 环境 为 定向 技术 和 效果 优化 拓展 了 巨大 的 空 
间 ， 未 来 需求 方 的 技术 也 还 有 很 大 的 提高 余地 。 本 章 将 重点 介绍 这 些 在 实时 芝 价 环 
境 下 产生 的 需求 方 扩 术 问题 。 


程序 化 交易 市 场 还 有 供给 万 平台 (SSP ) 这 一 产品 ， 其 核心 优化 问题 是 面向 多 个 
广告 网 络 时 的 收入 优化 问题 ， 可 以 看 成 是 与 广告 交易 市 场 中 的 询 价 优化 相 类 似 的 问 
题 ， 本 章 也 将 分 析 这 两 项 技术 之 间 的 天 系 。 


14.1 ZLZXBEAS|EZ 


我 们 先 来 看 广告 交易 平台 的 优化 目标 ， 在 公式 2.2 的 基础 上 ， 这 一 目标 可 以 调整 
为 : 
y 
m 2, bidcpm(a;) (14.1) 
这 里 的 a 代表 的 是 某 DSP 而 非 具体 广告 。 与 公式 2.2 相 比 ， 这 一 优化 目标 显然 大 
大 简化 了 : 首先 是 成 本 项 没有 了 “， 这 是 由 在 广告 交易 平台 中 分 成 或 包 断 媒体 资源 的 
方式 决定 的 ; 其 次 ， 收 入 项 不 再 与 用 户 或 上 下 文 相关 ， 因 为 这 部 分 因素 都 由 ”DSP 来 
考虑 ， 并 体现 在 最 终 的 报价 中 。 显 然 ， 此 优化 简单 地 通过 比较 DSP 报 价 ， 取 价 高 者 即 
可 。 因 此 ， 广告 交易 平台 在 各 种 广告 产品 中 是 算法 方面 挑战 最 小 的 。 
虽然 广告 交易 平台 中 的 计算 问题 不 多 ， 我 们 还 是 要 介绍 以 下 两 个 问题 。 
(1) 由 于 实时 竞价 的 功能 需求 ， 广 告 交易 市 场 解决 供给 方 和 需求 方 用 户 身份 对 
应 的 问题 ， 在 Web 广告 环境 下 ， 这 需要 用 到 cookie 映 射 的 技术 。 
( 2) 实践 中 当 考 虑 到 带宽 和 服务 成 本 带 来 的 约束 时 ， 和 希望 用 更 少 的 询 价 请 求 完 
成 尽 可 能 高 效 的 变现 ， 在 这 种 情况 下 ， 公 式 14.1 的 优化 问题 会 有 所 变化 ， 这 一 问题 
称 为 询 价 优化 。 
由 于 主要 功能 是 提供 公开 或 私有 的 实时 竞价 市 场 ， 广 告 交 易 平 台 是 架构 上 相对 
简单 的 广告 产品 ， 其 架构 如 图 14-1 所 示 。 
这 一 架构 主要 涉及 的 是 在 线 广告 请 求 时 的 系统 过 程 ， 而 离线 的 。” cookie 映 射 过 


程 将 在 下 面 专门 介绍 。 当 用 户 访问 媒体 页 面 ， 广 告 请 求 友 到 ADX Ja, ADX ASS 
接 入 的 DSP 友 起 询 价 并 完成 比价 决策 ， 然后 将 胜出 的 DSP 返 回 给 媒体 页 面 进行 广告 
投放 。 从 核心 概念 上 看 ，ADX 既 不 需要 目 己 的 广告 索引 ， 也 不 需要 ”eCPM 估计， 因而 
可 以 用 非 党 简单 的 以 构 实现 。 但 是 这 仅仅 是 理论 上 的 概念 ， 实 际 产 品 中 ，ADX 与 ADN 
的 界限 并 不 是 泾 渭 分 明 ， 往 往 为 了 文 持 小 规模 广告 主 在 更 方便 的 图 形 界面 采 买 ， 也 
需要 广告 检索 和 排序 ; 而 为 了 实现 询 价 优 化 ， 简 单 的 eCPM 佑 计 也 是 不 可 少 的 。 


14.1.1 cookie 有 映射 


我 们 先 来 了 解 在 线 广告 中 是 如 何 对 用 户 身份 进行 跟踪 的 。 在 不 同 的 广告 形式 
中 ， 采 用 的 用 户 身份 标识 也 不 尽 相 同 。 

在 Web 环境 下 投 送 的 广告 ， 用 户 身份 标识 可 以 用 HTTP 协议 提供 的 cookie 
机 制 来 完成 。cookie “机制 在 安全 性 方面 有 很 多 好 处 ， 比 如 每 个 域名 下 的 服务 只 能 
访问 本 域名 下 的 cookie， 这 实际 上 是 由 浏览 器 保证 了 不 同 Web 应 用 之 间 用 户 数据 
的 隔离 。 不 过 cookie 在 用 户 跟 踪 的 有 效 性 方面 受到 一 些 限制 : 首先 ， 用户 可 以 主 
动 清除 ^ cookie ,于 是 广告 系统 对 该 用 户 的 跟 路 束 中 断 了 ; 另外 ， 由 于 广告 网 络 往 
往 是 在 其 他 域名 的 网 站 上 跟 踊 用 户 和 投放 广告 ，, 其 种 植 的 。 cookie 是 第 三 方 
cookie。 而 对 于 第 三 方 ” cookie， 浏 览 器 一 般 有 更 为 严格 的 限制 ， 有 的 浏览 器 甚至 
会 在 默认 情况 下 禁止 第 三 方 cookie， 这 也 成 为 行为 定向 的 障碍 。 随 着 市 场 对 用 户 隐 
私 问题 越 来 越 天 注 ，W3C 还 进一步 制定 了 “Do Not Track” (DNT ) 的 标准 ， 用 于 
用 户主 动向 网 站 要 求 不 要 被 跟踪 ， 或 者 不 要 被 网 站 上 的 第 三 方 应 用 所 跟踪 。 cookie 
的 跟 踊 方 式 还 有 一 个 问题 ， 那 就 是 当 某 谷 电 脑 的 用 户 使 用 多 个 浏览 器 时 ， 其 
cookie 无 法 直接 统一 起 来 。 
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图 14-1 广告 交易 平台 系统 架构 

在 有 用 户 登 录 信 息 的 广告 产品 中 ， 用 户 登 录 的 身份 往往 是 比 浏览 器 cookie 更 
强 的 身份 标识 ， 而 最 典型 的 情形 出 现在 社区 广告 中 。 用 户 登 录 信 息 不 仅 在 接续 性 上 
远 远 好 于 普通 的 浏览 器 cookie， 还 具有 能 够 打通 不 同 的 桌面 和 移动 设备 的 功能 。 
此 ， 创 造 网 站 功能 以 鼓励 用 户 登 录 是 很 多 从 事 广 告 业务 的 互联 网 公司 都 在 努 力 的 方 
向 。 当 然 ， 也 不 能 认为 用 户 登 录 身 份 的 准确 性 一 定好 于 浏览 器 cookie。 例 如 ， 在 某 
些 游戏 性 质 较 强 的 产品 中 ， 由 于 一 个 用 户 可 能 创建 多 个 “马甲 ”参与 ， 会 导致 其 用 
尸 标 识 相当 不 准确 。 


与 其 他 身份 标识 不 同 ，cookie 由 于 具有 域名 之 间 的 隔离 性 ， 在 ”RTB 这 种 服务 器 
间 的 广告 请 求 中 ，DSP 无 法 直接 得 到 自己 域名 下 的 cookie。 因 此 ， 必 须要 通过 某 种 
技术 手段 来 完成 身份 对 应 ， 这 称 为 cookie 映 射 。cookie 映 射 应 用 的 范围 很 广 ， 除 了 
上 面 提 到 的 ADX 与 DSP 之 间 的 身份 对 应 ， 上 典型 的 应 用 还 例如 媒体 与 PMP 之 间 的 身份 对 
应 以 及 某 具 有 永久 用 户 标识 的 服务 向 其 他 域名 提供 cookie 找 回 的 服务 等 。 

cookie 了 映射 的 场景 比较 多 样 ， 我 们 可 以 重点 天 注 三 个 问题 : RERE ? 在 哪里 
发 起 ? 谁 保 仓 映射 表 ? 最 典型 的 场景 有 两 种 : 一 是 涉及 两 个 域名 ， 即 在 一 个 域名 的 
服务 上 向 另 一 个 域名 友 动 的 cookie 了 映射 ; 二 是 涉及 三 个 域名 ， 即 在 一 个 第 三 方 域 
名 页 面 上 发 动 的 其 他 两 个 域名 间 的 cookie 映 射 。 我 们 分 别 来 讨论 这 两 种 情况 。 

涉及 两 个 域名 的 cookie 映射 ， 典 型 的 例子 是 媒体 与 DMP 之 间 的 身份 对 应 问 
题 。 如 图 14-2 所 示 ， 这 一 过 程 有 5 个 步 又。 

(1) 用 户 到 达 媒 体 页 面 。 

( 2) 向 媒体 的 cookie 了 映射 服 务 请 求 一 段 负 责 此 功能 的 J]avascript 代 码 。 

( 3) 媒体 的 cookie 映 射 服务 返回 该 段 Javascript 代 码 。 

(4)iX JavaScript 代码 判断 需要 映射 的 话 ( 如 果 最 近 已 经 做 过 则 可 以 不 
fA), E ”DMP 发 起 cookie 了 映射 请 求 ， 并 传送 两 个 参数 : 媒体 的 标识 ( mid ) 以 及 媒 
体 方 的 cookie (mck). 

( 5 ) DMP 返 回 一 个 1x1 的 beacon， 并 记录 下 媒体 方 cookie (mck) 与 己方 
cookie ( dck ) 的 对 应 关系 。 
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图 14-2 媒体 与 DMP 辣 cookie 映射 示例 
考察 一 下 关注 的 三 个 问题 可 以 发 现 ， 这 一 ”cookie 映射 过 程 是 由 媒体 方 在 媒体 
的 页 面 上 上 动 ， 并 由 DMP 方 保存 映射 天 系 。 这 样 做 有 其 合理 性 : 媒体 需要 从 DMP 获 得 
标签 的 人 群 是 自己 的 访问 人 群 ， 因 此 从 媒体 页 面 友 动 ; 而 DMP 保 存 映 射 ， 可 以 比较 方 
便 地 将 目 己 的 用 户 标签 与 媒体 cookie 对 应 ， 并 传 回 给 媒体 。 
涉及 三 个 域名 的 cookie 映射 ， 典 型 的 例子 是 DSP 与 ADX 之 间 的 用 户 标 识 
对 应 问题 。 如 图 14-3 所 示 ， 这 一 过 程 有 6 个 步骤 。 
(1) 用 户 访问 广告 主页 面 。 
( 2 ) 选择 性 加 载 一 个 DSP 域 名 下 的 iframe。 
(3 ) DSP 判断 需要 映射 的 话 ， 返回 包括 多 个 beacon 的 动态 HTML， 此 处 多 
个 beacon 的 目的 是 为 了 同时 与 多 个 ADX 交 换 cookie。 
( 4) 通过 其 中 的 某 个 beacon 同 对 应 的 ADX 发 送 cookie 了 映射 请 求 ， 并 市 有 ADX 标 
iH ( xid ) 、DSP 标 识 ( did ) 和 DSP cookie ( dck ) 三 个 参数 。 
( 5 ) ADX 通 过 382 重 定向 向 DSP 返 回 ADX 标 识 (xid ) 及 其 域名 下 的 
cookie ( xck ) 。 
( 6 ) DSP 返 回 一 个 1x1 的 beacon， 并 记录 下 ADX 方 cookie ( xid ) 与 己方 
cookie ( dck ) 的 对 应 关系 。 
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图 14-3 DSP 与 Ad _ Exchange 间 cookie 映 射 示例 

这 个 过 程 与 上 一 个 过 程 相 比 ， 由 于 是 在 第 三 方 的 网 站 上 友 动 映射 ， 因 而 较为 复 
杂 ， 需 要 用 到 362 重 定向 ， 不 过 熟悉 前 端 技术 的 朋友 应 该 不 难 理解 。 仍 然 考察 我 们 
关注 的 三 个 问题 ， 这 次 是 由 DSP 在 广告 主页 面 上 友 动 映射 ， 并 由 DSP 保 和 存 映 射 关 系 。 
这 样 做 也 是 符合 业务 逻辑 的 : DSP 主 要 需要 广告 主 的 人 和 群 做 深入 加 工 并 对 这 部 分 人 和 群 
在 ADX 中 出 价 ， 因 此 从 广告 主页 面 友 动 ; 而 RTB 是 cookie 的 对 应 ， 由 各 DSP 分 
别 目 行 完 成 比 在 ADX 中 集中 时 完成 显然 更 加 合理 ， 因 此 这 一 映射 表 保 存在 DSP 方 。 

除了 上 面 两 个 典型 的 例子 ，cookie ”映射 可 能 遇 到 的 需求 还 很 多 ， 但 大 家 只 要 
分 析 清 楚 关 键 的 三 个 问题 ， 并 透彻 理解 上 面 两 种 方式 ， 残 很 容易 举 一 返 三 ， 根 据 实 
际 需 求 设计 合理 方案 。 

14.1.2 ] 询 价 优化 


ADX 中 有 一 个 重要 的 问题 需要 考虑 ， 那 束 是 如 何在 带 壳 和 服务 成 本 的 约束 下 获得 
更 高 的 eCPM。 如 果 不 考 虑 成 本 ，ADX 的 询 价 策略 非常 简单 ， 每 次 展示 都 向 所 有 接 入 
的 DSP 询 价 即 可 。 可 是 当 DSP 数 以 十 计时 ， 服 务 成 本 束 会 上 升 一 个 数量 级 ， 这 显然 是 
无 法 接受 的 。 因 此 ， 广 告 交易 平台 需要 在 市 宽 或 服务 成 本 的 约束 下 ， 优 化 整体 市 场 
的 eCPM 水 平 。 要 考虑 市 宽 或 服务 成 本 的 约束 ， 显 然 束 需 要 对 每 次 展示 中 询 价 的 ”DSP 
数目 做 精简 ， 这 个 问题 称 为 询 价 优化 。 

询 价 优化 有 两 种 典型 的 思路 ， 一 种 是 工程 规则 的 思路 ， 另 一 种 是 将 其 视 为 一 个 


市 约束 优化 问题 的 思路 。 移 介绍 一 下 工程 规则 的 思路 : 考虑 到 DsP 方 有 相当 一 部 分 是 
按照 广告 主 定制 标签 来 采 买 流量 ， 因 此 ， 这 种 DSP 一 般 来 说 只 会 在 自己 感 兴 趣 的 人 
群 ， 也 融 是 cookie 映 射 过 的 用 户 群 上 出 价 。 显 然 ，ADX 是 可 以 先 验 地 知道 这 一 用 户 
群 的 ， 因 此 ， 对 这 类 DSsP 中 的 某 一 个 ， 如 果 当 前 广告 请 求 到 达 的 用 户 ”cookie 没 有 与 
其 映射 过 ， 那 么 束 不 需要 向 该 DSP 询 价 。 一 般 来 说 ， 这 样 的 规则 可 以 显著 降低 市 宽 
需求 。 不 过 ， 也 有 很 多 的 DsP 并 不 是 仪 仪 在 广告 主 用 户 集合 上 出 价 ， 或 者 当 这 样 做 仍 
然 不 能 满足 市 宽 成 本 的 要 求 时 ， 残 需要 进一步 的 优化 了 。 

询 价 优化 的 问题 ， 由 于 也 需要 在 每 个 广告 请 求 到 来 时 做 决策 ,因此 从 框架 上 非 
常 类 似 于 第 11 章 的 在 线 分 配 问题 。 只 不 过 这 里 的 约束 变 成 了 融 宽 或 服务 的 成 本 。 由 
于 从 商业 规则 上 说 ， 我 们 不 能 完全 依赖 ecPM 水 平 来 决定 向 哪个 DSP 发 起 询 价 ， 因 为 
这 样 有 可 能 造成 某 些 DSP ”完全 得 不 到 流量 ， 从 而 退出 市 场 。 因 此 ， 实 际 的 询 价 优 化 
问题 的 约束 往往 设置 成 各 个 DSP 获 得 流量 比例 的 一 个 上 限 ， 而 这 一 上 限 是 根据 该 DSP 
一 段 时 间 的 花费 来 决定 的 。 在 这 样 的 约束 下 ， 参 考 文献 [19] 中 将 询 价 优化 接 述 为 下 
面 的 优化 问题 : 


max 》 》 kVUiak 
(i.a) " Uiak 
S. h. Tia < Pa 
X " 


Tia < 1; Uiak < Diak* ia 
he a) Viak < k Tias Yiak 2: 0 
这 里 的 a 代表 的 不 册 是 一 条 具体 的 广告 ， 而 是 某 一 个 DSP ; i 可 以 是 一 个 供给 节点 
或 一 次 展示 ( 在 没有 流量 预测 的 情形 下 ) ; k ”是 某 个 出 价 ( 此 处 进行 了 离散 化 以 方 
便 问 题 描述 ) 。 与 第 11 章 的 在 线 分 配 问 题 对 比 ，p,， 与 y,， 是 新 引入 的 变量 ， 分 别 表 
示 DSP ”a 为 供给 i 的 一 次 展示 出 价 k 的 概率 以 及 以 此 出 价 赢得 此 次 拍卖 的 概率 。 与 


(14.2) 


在 线 分 配 框架 问题 对 比 ， 可 以 友 现 它们 在 数学 本 质 上 是 一 样 的 。 询 价 优化 问题 的 关 
键 就 是 上 式 中 的 第 一 个 约束 ， 它 表示 的 是 总 体 分 配给 每 个 DSP_a 的 流量 不 超过 其 上 限 
p.。 有 关 询 价 优化 问题 更 详细 的 研究 参见 参考 文献 [19] 。 


注意 一 下 公式 14.3 中 所 有 (ie ) 的 式 子 。 在 供需 二 部 图 中 (i,a) 是 所 有 
的 供给 节点 与 需求 节点 之 间 边 的 集合 。 对 于 开放 竞价 的 ADX 来 说 ， 所 有 的 流量 向 所 
有 的 psp 开放 ， 因 此 任意 的 (1, a) 组 合 都 要 考虑 ; 而 在 PMP p, 可行 的 (i， 
a) 组 合 是 由 每 个 私有 市 场 向 哪些 DsP 开 放 决 定 的 。 

除了 在 线 分 配 的 框架 ， 询 价 优化 的 关键 基础 实际 上 是 对 p,， 与 y,。 两 组 变量 的 
预 估 。 也 就 是 说 ， 对 于 某 个 供给 节点 ， 也 即 特定 的 人 群 ， 要 对 各 DspP 在 此 人 群 上 的 出 
价 以 及 此 人 群 整体 的 市 场 价 水 平 有 一 定 的 估计 能 力 ， 这 实际 上 就 是 要 预 估 各 个 DspP 在 
特定 人 群 上 对 ADX 来 说 的 ecPM。 因 此 ， 在 询 价 优化 的 需求 下 ，ADX 也 需要 eCPM 估 计 。 


14.2 K Gee Sai 


DSP ”的 优化 目标 与 大 多 数 广告 产品 有 所 不 同 。 从 利润 的 角度 出 友 ， 除 了 尽量 提 
高 广告 的 eCPM， 还 需要 尽量 降低 每 次 广告 展示 的 费用 ， 而 后 者 在 广告 网 络 这 类 的 产 
品 中 是 无 需 优化 的 。 因 此 ，DsP 的 优化 问题 可 以 用 下 式 来 表达 : 


T 
max J p(;, u;, Ci) - v(aj, ui) — plui, ci) } (14.3) 
app prs 


公式 14.3 中 的 减 号 前 的 部 分 ， 即 收益 ， 可 以 通过 eCPM 估 计 来 计算 ， 其 技术 与 广 
告 网 络 中 的 eCPM 佑 计 相 类 似 ; 而 减 号 后 的 部 分 则 通过 出 价 策 略 来 优化 ， 这 是 DSP 特 
有 的 优化 需求 。 

DSP 的 系统 架构 如 图 14-4 所 示 ， 其 中 广告 投放 的 决策 流程 为 : DSP 服 务 器 通过 
RTBS 接 口 收 到 广告 询 价 请 求 ， 然 后 经 过 与 广告 网 络 类 似 的 决策 步骤 ， 包 括 检索 和 


eCPM 排序， 找到 价值 最 高 的 广告 ， 并 将 报价 返回 给 ”ADXx。 这 样 的 决策 流程 ， 适 用 
Fiz CPC 或 效果 付费 、 以 套利 为 目标 的 DSP， 这 类 DSP 通 过 优化 算法 提升 广告 主 的 
ROI 来 赚 取 更 多 的 利润 。 也 有 一 类 DSP 产品， 其 服务 接近 于 透明 采 买 的 方式 ， 即 广 
告 主 按照 自己 的 用 户 划分 和 策略 完成 RTB 购 买 ， 而 DSP 收 取 固 定 的 手续 费 ， 这 种 情况 
下 ， 对 优化 的 需求 束 没 有 那么 高 。 我 们 重点 讨论 的 是 前 一 种 DSP。 

与 广告 网 络 相 比 ，DSP 的 广告 决策 过 程 更 加 复杂 , 我 们 会 重点 讨论 下 面 的 几 个 技 
NAdo 

(1) DsP 往 往 需要 广 持 定制 化 的 用 户 划 分 能 力 。 在 实际 产品 中 ， 定 制 化 用 户 划 
分 有 时 由 专门 的 DPMP 来 提供 ， 但 更 常见 的 情形 是 DSP 提 供 的 标准 接口 来 实现 。 

(2) 由 于 DSP 是 完全 面向 广 告 主 的 产品 ， 需 要 在 量 的 约束 下 投放 。 因 此 ， 还 存 
在 类 似 在 线 分 配 的 问题 ， 这 产生 了 对 于 出 价 策略 的 需求 。 

(3) He CPC 结算 的 ”DSP 中 ， 进行”eCPM 佑 计时， 需要 估计 CTR; 而 在 按 
CPS 等 效果 结算 的 DSP 中 ， 还 需要 同时 估计 点 击 价 值 。 并 且 ， 由 于 实时 出 价 的 要 求 ， 
这 两 项 的 估计 都 要 尽 可 能 准确 。 关 于 点 击 率 和 点 击 价值 估计 的 方法 在 前 一 草 已 经 介 
绍 过 ， 本章 会 简要 介绍 一 下 在 DSP 当 中 的 挑战 。 
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图 14-4 需求 方 平 台 (DSP ) 系统 架构 示意 
14.2.1 Til 示 签 
DSP 与 其 他 广告 产品 相 比 ， 多 了 定制 化 用 户 划分 功能 (customized audience 
segmentation ) 部 分 ， 这 是 收集 第 一 方 数据 的 接口 ， 这 部 分 数据 将 用 于 加 工 第 一 方 
专用 的 用 户 标签 ， 用 于 指导 广告 投放 。 
对 于 定制 化 用 户 标 签 中 最 常用 的 重 定 向 ， 需要 将 访问 广告 主 网 站 的 某 特定 用 户 
集合 传送 给 psP。 这 个 接口 也 有 两 种 主要 的 的 实现 方式 。 


(1) 直接 在 广告 主 的 网 站 上 布设 DSP 域 名 的 JavaScript 代 码 或 者 外 链 图 片 (也 
可 以 是 不 可 见 的 beacon ) ， 这 样 DsP 就 可 以 直接 收集 到 访客 的 记录 ， 再 自行 加 工分 
析 即 可 。 

( 2 ) 采用 线 下 数据 接口 的 方式 ， 定 期 将 广告 主 或 者 其 委托 的 DMP 收 集 到 的 访客 
集合 批 处 理 式 地 传送 给 DsP。 当 然 ， 前 提 是 DSP 与 广告 主 或 其 DMP 之 间 建 立 起 了 
cookie 了 映射 的 机 制 。 

这 两 种 方式 各 有 优 缺 点 : 前 者 能 够 实时 地 获取 访客 信息 ， 但 是 需要 一 段 时 间 的 
数据 积累 才能 履 盖 广告 主 用 户 集合 的 大 部 分 ， 而 且 在 多 个 DsP 同 时 服务 于 一 家 广告 主 
时 需要 加 多 段 跟 踪 代 码 ， 这 样 会 降低 页 面 响应 速度 ; 后 者 虽然 可 以 迅速 得 到 访客 集 
合 ， 并 且 避 免 页 面 因 多 组 跟 蹊 代码 而 变 得 太 重 ， 却 在 数据 更 新 时 有 一 定 的 延迟 ， 并 
且 对 广告 主 方 的 技术 要 求 较 高 。 

除了 获取 第 一 方 用 户 行为 数据 的 接口 以 外 ， 当 需要 提供 个 性 化 重 定向 功能 时 , 
DSP “还 需要 向 广告 主 提供 用 于 商品 库 同步 的 接口 ， 由 于 不 同 广告 主 的 商品 库存 储 和 
省 理 区 别 很 大 ， 往 往 需 要 多 套 接口 才能 满足 业务 的 需要 。 人 在 实际 的 个 性 化 重 定向 技 
术 中 ， 商 品 库 的 接口 是 最 为 复杂 的 功能 之 一 。 

在 定制 化 用 户 标 签 中 ， 要 特别 提 到 look-alike ( 新 客 推荐 ) 这 类 方法 ， 因 为 它 
要 同时 用 到 第 一 方 数 据 和 第 三 方 数 据 ， 有 比较 独特 的 算法 建 模 需求 。 

look-alike 建 模 

XT ”1look-alike 的 具体 建 模 方法 ， 目 前 市 场 上 还 没有 大 家 公认 的 通用 方案 。 
不 过 ， 如 果 从 这 种 定向 方式 的 本 质 ， 即 t (a, u) 的 特点 出 友 ， 并 且 以 优化 效果 为 主 
要 目的 话 ， 也 可 以 以 前 文 讨论 的 点 击 率 模型 为 基础 ， 得 到 look-alike 的 一 般 可 行 思 
路 。 

任意 给 定 一 组 (a, u, c) 的 组 合 ， 扣 击 率 模型 按照 训练 好 的 模型 计算 其 预 估 的 
所 击 率 。 如 果 变 换 一 下 思路 ， 筛 选 出 一 个 特定 广告 主 的 历史 投放 数据 ， 并 且 只 使 用 


那些 与 用 户 或 广告 主 相 天 的 组 合 特征 x (a, u ) 训练 下 面 的 模型 。 

ply = 1l|a(a, u)) (14.4) 

虽然 此 模型 的 形式 与 点 击 率 模型 类 似 ， 但 是 其 意义 已 经 发 生 了 本 质 的 变化 : 首 
先 ， 这 里 的 一 条 样本 是 一 个 用 户 ， 而 不 是 一 次 展示 ; 其 次 ， 这 里 的 输出 信号 y ”不 再 
是 点 击 行为 ， 而 是 标示 一 个 用 户 是 否 为 广告 主 用 户 的 二 元 变量 。 显 然 ， 此 模型 是 一 
个 针对 广告 主 a， 评 价 某 个 u 成 为 其 用 户 可 能 性 的 评估 消 数 。 由 于 此 模型 评估 的 是 用 
户 的 属性 ， 因 此 与 上 下 文 信息 c 无 关 。 

对 于 训练 集中 每 一 个 用 户 u， 确 定 其 对 应 的 y， 有 两 种 方法 : 第 一 种 方法 根据 
广告 主 提供 的 种 子 用 户 集 ， 将 出 现在 该 种 子 用 户 集中 的 u 对 应 的 y 。” 标 为 1， 否 则 标 为 
0 ; 第 二 种 方法 根据 广告 投放 的 记录 ， 将 点 击 过 该 广告 主 广告 一 定 次 数 ( 一 般 设 为 
1) 以 上 的 用 户 对 应 的 y 标 为 1， 否 则 标 为 6。 比 较 这 两 种 方法 ， 第 一 种 需要 用 到 广告 
主 提供 的 第 一 方 数 据 ， 能 够 高 质量 上 且 比 较 精确 地 圈定 目标 人 群 ; 第 二 种 方法 不 需要 
第 一 方 数据 ， 但 是 靠 广告 点 击 收集 的 种 子 用 户 集合 往往 质量 较 差 ， 而 且 量 会 受到 限 
制 ， 也 会 有 比较 严重 的 冷 启 动 问题 。 至 于 look-alike 模 型 的 具体 形式 和 训练 方法 与 
点 击 率 模型 有 类 似 的 选择 。 由 于 look-alike 问 题 的 训练 集 正 比 于 用 户 规模 而 不 是 展 
示 量 规模 ， 因 此 求解 的 过 程 比 点 击 率 模 型 会 简单 一 些 ， 往 往 不 需要 用 分 布 式 计算 方 
案 就 可 以 解决 。 

对 任意 一 个 给 定 的 用 户 u, 上述 look-alike 模型 给 出 的 是 其 成 为 广告 主 a 
用 户 的 可 能 性 。 此 可 能 性 是 (0, 1) 之 间 的 一 个 概率 值 ， 对 其 设 定 一 个 国 值 ， 残 可 
以 将 用 户 分 成 两 类 ， 一 类 我 们 认为 是 该 广告 主 的 潜在 新 客 ， 一 类 认为 不 是 。 这 样 就 
得 到 了 该 广告 主 的 潜在 新 客 这 一 标签 ， 显 然 ， 这 样 的 标签 是 一 种 定制 化 用 户 标签 。 

在 很 多 情况 下 ， 为 特定 广告 主 发 现 新 客 ， 既 可 以 采用 这 样 的 look-alike 标 
签 ， 也 可 以 采用 普通 的 受众 定向 标签 。 比 如 ， 为 招商 银行 的 信用 卡 寻 找 新 客 ， 既 可 
以 由 招商 银行 提供 种 子 用 户 ， 加 工 其 专用 的 look-alike 标 签 ， 也 可 以 简单 地 选择 普 


通 受 众 定向 体系 中 的 “财经 /信用 卡 ” 这 样 的 人 群 。 显 然 ， 由 于 第 一 方 数据 的 使 用 ， 
我 们 希望 1ook-alike 标 签 在 同样 的 reach 水 平 下 ， 其 CTR 应 该 高 于 普通 受众 定向 标 
签 ， 也 就 是 前 者 的 reach/CTR 曲 线 在 后 者 的 曲线 上 方 ( 如 图 14-5 所 示 ) 。 人 否则 ， 
look-alike 技 术 就 没有 价值 了 。 


14.2.2 DSP SEE SU 


DSP 中 的 点 击 率 预测 与 广告 网 络 中 的 点 击 率 预测 原理 一 臻 ， 方 法 也 可 以 通用 。 不 
过 ， 由 于 RTB 环 节 的 存在 ， 扣 击 率 预 测 准 确 性 的 要 求 是 更 高 的 ， 而 且 离 线 测试 与 线 上 
测试 存在 一 个 系统 性 的 偏差 ， 下面 探 讨 这 两 个 问题 。 

对 氮 击 率 预测 准确 程度 要 求 高 这 一 点 很 容易 理解 : 在 广告 网 络 中 ， 估计 eCPM 
是 为 了 对 候选 进行 排序 ， 因 此 相对 一 致 的 点 击 率 高 估 或 者 低估 ， 对 结果 的 影响 是 有 
BRAY ; 而 在 DSP 中 ， 估 计 ecPM 是 为 了 做 出 价 的 依据 ， 任 何 高 估 或 低估 都 会 对 最 后 的 
利润 产生 直接 的 影响 。 而 前 面 介绍 的 PR 曲线 和 和 ROC 曲线 主要 对 排序 比较 敏感 ， 在 精细 
地 反映 预测 准确 程度 上 还 不 够 。 例 如 ， 我们 把 某 一 个 模型 计算 出 来 的 点 击 率 k 作 如 下 
的 变换 : 

lg M=12 (lg p-1g 0.01) «1g 6.61(14.5 ) 

可 以 验证 ,jy Kip c aa MR dis 但 是 ， 显 然 它们 的 预 佑 
准确 程度 不 相同 。 因 此 ， 除 了 关注 AUC 等 指标 以 外 ， 还 需要 在 各 种 流量 细 分 上 关注 预 
测 点 击 与 真实 点 击 的 比 ， 看 它 是 否 在 1 附近 。 某 部 分 流量 上 真实 点 击 总 数 与 各 展示 预 
估 cTR 之 和 的 比例 称 为 CoPC (Click on Predicted Click) ， 在 实际 系统 中 ， 
CoPC 也 是 需要 重点 关注 的 指标 之 一 ， 它 表征 着 某 部 分 流量 上 是 否 存 在 明显 的 点 击 率 
高 估 或 低估 。 
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图 14-5 look-alike 标 签 与 一 般 受 众 定 向 标签 效果 区 别 示意 

表 14-1 说 明了 DSP 扎 击 率 模型 离线 测试 与 线 上 测试 的 系统 性 偏 托 。 假 设 有 三 
个 广告 位 、B、C， 在 探索 得 到 的 训练 集 上 获得 的 流量 都 是 16 干 次 ， 并 且 点 击 率 也 都 
是 90.2%， 但 是 模型 估计 的 点 击 率 有 的 高 估 ， 有 的 低估 。 于 是 ， 在 离线 测试 时 ， 模 型 
估计 的 平均 点 击 率 与 真实 点 击 率 是 一 致 的 。 然 而 ， 在 线 上 按照 此 模型 参与 竞价 时 ， 
点 击 率 高 估 的 部 分 获得 的 流量 比例 会 上 升 ， 如 表 中 所 示 ,，A、B、C ”三 个 广告 位 实测 
时 获得 的 流量 分 别 为 ”76 FIR, 100 干 次 、136 干 次 ， 于 是 ,在线 上 实测 集 上 观 


察 ， 模 型 预 估 的 平均 点 击 率 变 成 了 6.21%， 比 真实 点 击 率 高 估 了 5%。 由 于 模型 总 是 
会 在 部 分 流量 上 高 估 或 低估 ， 因此， 这 样 的 系统 偏差 总 是 存在 的 ， 有 时 还 会 相当 严 


ER, 
Fit RR CHO [sisi W REE FH) Rl (%) 
A 10 
B 10 
C 10 
平均 








特别 提 及 此 系统 偏差 的 目的 是 要 告诉 大 家 ， 在 实时 竞价 的 动态 博弈 环境 下 ， 由 
于 模型 本 身 会 影响 流量 的 分 布 ， 对 点 击 率 预 则 和 其 他 算法 问题 效果 的 理解 要 有 新 的 
思考 方式 ， 并 且 应 该 更 多 地 根据 线 上 实测 的 结果 来 判断 一 个 模型 的 好 坏 与 取舍 。 

14.2.3 点 击 价 值 估计 

由 于 DSP 代 表 的 是 广告 主 的 利益 ， 往 往 可 以 通过 在 广告 主 网 站 布设 代码 等 方式 获 
得 转化 数据 量 ， 按 CPS/CPA/ROI 等 转化 效果 方式 与 广告 主 结 算 。 在 这 种 结算 方式 
下 ， 除 了 要 按 广告 网 络 那 样 估计 点 击 率 ， 还 需要 估计 点 击 价值 。 我 们 来 看 点 击 价值 
估计 的 问题 。 


v(a,u,c) = h(a,c) - c(a,u) - t(a) (14.6) 
如 公式 14.6 所 示 ， 点 击 价值 可 以 分 解 为 到 达 率 ( reach ) h、 转 化 率 c 和 转化 单 


价 t 三 个 量 的 乘积 。 到 达 率 指 的 是 实际 打开 广告 落地 页 次 数 与 点 击 次 数 的 比例 ， 这 与 
广告 主 网 站 的 页 面 打 开 延 迟 关 系 最 大 ， 与 媒体 的 属性 、 特 别 是 误 点 情况 也 有 一 定 关 
系 ， 因 此 可 以 认为 它 与 广告 主 a 和 媒体 < 有 关 ; 转化 率 指 的 是 到 达 落 地 页 以 后 ， 


有 多 少 比 例 产 生 了 广告 主 定义 的 转化 行为 ， 这 主要 与 用 户 对 广告 主 产 品 的 兴趣 有 

天 ， 因 此 是 广告 主 a 和 用 户 u 的 销 数 ; 转化 单价 在 ”CPA/CPS 类 的 广告 中 是 广告 主 指定 
的 转化 费用 ， 而 在 ROI 类 广告 中 是 广告 主客 单价 与 分 成 比例 的 乘积 ， 因 此 我 们 认为 转 
化 单价 主要 与 广告 主 a 相 关 。 当 然 ， 上 面 的 讨论 非常 近似 ， 实 际 上 a、u、c 三 个 变量 


都 对 到达 率 、 转 化 率 和 转化 单价 有 一 定 的 影响 ,而 公式 14.6 只 考虑 了 其 主要 影响 因 


上 面 的 几 个 量 中 ， 到 达 率 与 转化 单价 都 不 难 统计 ， 而 转化 率 的 估计 是 一 个 比较 
困难 的 问题 。 这 首先 是 因为 转化 比 起 点 击 还 要 稀 足 得 多 ， 用 机 器 学 习 的 方法 建 模 存 
在 较 大 困难 ; 其 次 ， 转 化 的 定义 和 性 质 与 广告 的 具体 业务 类 型 、 甚 至 不 同 广 告 主 的 
目标 紧密 相关 。 例 如 ， 电 商 广告 主 会 将 购买 定义 为 转化 ， 而 游戏 广告 主 企 开 服 的 需 
求 下 会 将 注册 定义 为 转化 ， 在 一 般 运 萤 状 态 下 会 将 充值 定义 为 转化 。 显 然 ， 不 同类 
型 的 转化 无 法 用 同一 模型 来 摘 述 ， 这 进一步 加 剧 了 数据 的 稀 嘴 性 。 

特别 要 注意 的 是 ， 在 没有 充足 的 行业 数据 支持 的 情形 下 ， 广告 产品 干 万 不 能 贸 
然 将 点 击 价值 估计 全 部 交 由 机 器 完成 。 实 践 中 比较 可 行 的 办 法 基本 上 都 是 简单 统计 
与 运营 经 验 相 结 合 来 估算 转化 率 。 不 过 ， 当 某 ”DsP 的 广告 主 类 型 和 转化 流程 相对 一 
致 ， 比 如 专门 服务 于 游戏 客户 的 DSP 或 者 像 淘宝 这 样 的 平台 电 商 自 建 的 DSP， 那 
么 在 转化 数据 比较 充分 的 前 提 下 ， 可 以 采用 机 器 学 习 建 模 的 方法 预测 转化 率 。 转 化 
率 预 测 用 到 的 数学 工具 和 优化 方法 在 此 不 再 展开 介绍 。 

14.2.4 出 价 策略 

如 果 DSP 投放 的 广告 活动 没有 预算 的 限制 ， 那 么 出 价 策略 非常 简单 : 只 要 按照 
eCPM 水 平 出 价 ， 融 可 以 保证 在 第 二 高 价 的 情况 下 每 次 展示 都 有 利润 。 但 是 在 有 预算 
约束 的 情况 下 ， 显 然 希 望 每 次 展示 的 利润 率 尽 可 能 高 ， 而 利润 率 除了 需要 知道 
eCPM， 还 需要 对 当前 展示 的 市 场 价格 有 所 估计 ， 并 在 全 局 水 平 上 尽 可 能 将 出 价 集中 


在 那些 利润 率 较 高 的 展示 上 ， 这 就 是 DSP 出 价 策略 的 直观 理解 。 
显然 ， 出 价 策略 也 是 一 个 量 约束 下 的 效果 优化 问题 ， 可 以 很 目 然 地 想到 用 在 线 
分 配 的 问题 框架 来 解决 。 根 据 上 面 的 问题 描述 ， 可 以 把 出 价 策略 摘 述 成 如 下 的 优化 


问题 : 


max pi 8;Lia(Tia — mi) 


] I 
un - (147 
E. Simia m; S da,  VacA 
i€ D(a) 
ti, 20, V(i,a) € E 


在 这 个 问题 中 ， 仍 然 把 流量 分 解 成 一 组 供给 节点 iel ， 并 用 r,， 表 示 供 给 节 
点 i 分 配给 广告 a 的 单位 流量 收益 ， 用 m， 表 示 供 给 节点 i 上 的 市 场 价格 。 由 于 第 二 
高 价 的 存在 ， 市场 价格 就 是 成 本 ， 而 rm 就 是 单位 流量 产生 的 利润 。 公 式 里 的 需求 
约束 表示 的 是 每 个 广告 主 的 化 费 不 能 超过 其 预算 。 因 此 ， 这 个 优化 问题 的 物理 意义 
是 ， 在 广告 主 预算 的 约束 下 最 大 化 DSpP 的 收益 。 注 意 到 在 供给 约束 中 ， 所 有 的 x,。 分 
配 比率 加 起 来 可 以 小 于 1， 也 融 是 说， 对 在 线 到 来 的 询 价 请 求 可 以 有 一 定 不 参与 竞价 
的 概率 ， 这 也 反映 了 出 价 策 略 的 本 质 。 

我 们 注意 到 ， 在 这 个 问题 中 ，r,，。 Mm 是 需要 估计 的 量 ， 也 是 策略 优化 的 关 
键 。 在 估计 r,。 Fm, Bj, 比较 重要 的 一 点 是 如 何 将 流量 划分 到 合适 的 供给 节点 上 ， 
在 最 彻底 的 情形 下 ， 还 是 可 以 将 每 次 展示 作为 一 个 供给 节点 ， 和 直接 利用 eCPM 估 计 的 
模型 来 计算 r,,， 并 建立 一 个 专门 的 市 价 预测 模型 来 估计 m,。 不 过 ， 由 于 对 市 从 m， 的 
估计 远 远 没有 对 eCPM 的 估计 那样 可 靠 ， 不 宜 使 用 过 于 复杂 的 模型 和 算法 ， 一 般 来 
说 ， 主 要 使 用 时 间 、 地 域 、 媒 体 属 性 等 影响 明确 的 因素 来 进行 预 估 。 


14.3 HORS 


供给 方 平 台 是 与 广告 交易 平台 比较 接近 的 产品 ， 一 般 会 实现 私有 的 RTB 交 易 以 及 
网 络 优化 等 功能 ， 并 且 用 动态 分 配 的 逻辑 决定 当前 展示 分 配给 哪 种 广告 渠道 。 动 态 
分 配 的 整体 闫 品 策略 已 经 在 6.5.1 节 中 有 所 介绍 ， 这 个 过 程 涉及 的 技术 与 其 他 产品 多 
是 相通 的 ， 唯 有 其 中 第 3 步 ， 即 网 络 优化 的 问题 ， 需 要 特别 说 明 。 

网 络 优化 

网 络 优 化 问题 是 指 ”ssP 在 接 入 多 个 广告 网 络 以 后 ， 在 线 动态 决定 将 广告 请 求 友 
给 哪个 广告 网 络 ， 从 而 优化 整体 收入 的 问题 。 

将 网 络 优化 与 14.1.2 世 的 询 价 优化 问题 对 比 可 以 友 现 ， 这 两 个 问题 有 一 些 相似 
之 处 : 前 者 需要 预 估 若干 广告 网 络 在 当前 (u, c) 条 件 下 的 eCPM ， 而 后 者 则 需要 预 
估 若 干 DSP 在 当前 (u, c) 条 件 下 的 ecPM。 当 然 它们 也 有 很 大 的 不 同 : 首先 是 在 网 
络 优 化 时 ， 只 需要 找到 eCPM 最 高 的 广告 网 络 ， 而 在 询 价 优化 中 ， 要 根据 市 吝 约 束 在 
线 决 定向 哪 几 个 DSP 询 价 ; 另外 ， 询 价 优化 中 DSP 的 eCPM 可 以 根据 历史 数据 比较 精细 
地 建 模 计 算 ， 但 是 在 网 络 优化 中 ， 由 于 广告 网 络 一 般 没有 向 媒体 报价 的 功能 ， 往 往 
只 能 采用 粗略 的 数据 分 析 和 建 模 手段 来 估计 其 eCPM。 

概念 上 说 ， 在 网 络 优化 中 ， 估 计 某 个 (a,u,c) 组 合 上 的 ecPM 时 ， 这 里 的 a 由 
具体 的 一 个 广告 变 成 了 某 个 广告 网 络 ， 由 于 没有 了 具体 的 广告 信息 ， 因 此 预测 的 准 
确 程度 也 会 大 打折 扣 。 有 关 网 络 优化 的 ecPM 估 计 问 题 ， 由 于 其 在 实践 中 的 重要 程度 
有 有限， 并且 并 不 是 多 数 广告 系统 会 遇 到 的 计算 问题 ， 在 此 不 讨论 其 细节 。 


14.4 epee 


1. 在 移动 互联 网 环境 下 ， 如 果 采 用 IMEI 这 种 比较 稳定 的 用 户 身份 标识 进行 程 
序 化 交易 ， 会 对 供给 方 、 需 求 万 和 数据 万 市 来 哪些 正面 和 负面 的 影响 ? 


2. 对 于 同样 流量 规模 的 ADX 与 ADN， 请 定量 估算 其 服务 成 本 的 差距 ， 并 据 此 估算 
询 价 优化 中 合理 的 服务 成 本 约束 。 

3. 优 选 ( preferred deals ) 和 RTB 中 需求 方 的 出 价 策略 有 何不 同 ? 哪 一 种 效 
率 更 充分 ? 


本 书 由 [ePUBw.COM| 整理 , ePUBw.COM 提供 最 新 最 全 的 优质 
电子 书 下 载 ! |! 
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在 本 书 的 前 面 章节 中 ， 我 们 以 在 线 广告 市 场 上 产品 形态 发 展 的 过 程 为 主线 ， 对 
按 合约 售卖 的 广告 系统 、 非 实时 竞价 的 广告 网 络 和 实时 竞价 的 程序 化 交易 市 场 作 了 
介绍 ， 并 对 其 中 关键 计算 技术 进行 了 深入 讨论 。 除 了 这 些 骨 干 性 的 技术 以 外 ， 在 线 
广告 中 还 有 一 些 非常 重要 的 外 围 问题 ， 本 章 将 对 这 些 问题 展开 讨论 ， 目 的 是 为 了 让 
读者 对 实际 广告 系统 的 各 个 环节 都 有 实际 的 认识 。 

在 前 面 的 章节 中 讨论 的 所 有 技术 和 算法 ， 其 核心 都 是 为 了 优化 广告 效果 。 不 过 
前 面谈 到 的 广告 效果 优化 思路 ， 基 本 上 集中 在 受众 的 选择 的 角度 ， 而 在 实际 的 在 线 
广告 中 ， 还 有 一 项 对 广告 效果 影响 巨大 的 技术 ， 那 就 是 创意 优化 。 创 意 优化 与 受众 
优化 性 质 有 所 不 同 ， 因 为 创意 的 改变 实际 上 也 改变 了 广告 要 表达 的 诉求 。 如 何在 基 
本 的 宣传 诉求 可 比 的 前 提 下 ， 结 合 受众 定向 对 创意 做 调整 ， 这 是 广告 系统 不 能 不 考 
虑 的 重要 问题 。 

广告 系统 运营 中 另 一 个 必须 考虑 的 问题 是 建立 一 个 灵活 的 实验 框架 
(experimentation framework). 。 由 于 各 种 策略 、 算 法 、 架 构 的 调整 ， 通 过 线 下 
评测 和 模拟 都 很 难 完全 反映 线 上 的 变化 ， 因此， 需要 有 一 个 线 上 的 实验 系统 来 确定 
其 有 效 性 。 线 上 实验 系统 的 原理 很 简单 ， 无 非 是 从 实际 流量 中 分 出 一 定 比 例 用 于 实 
验方 案 。 不 过 ， 由 于 同时 测试 的 方案 个 数 可 能 比较 多 ， 如 何在 一 个 框架 中 进行 更 多 
的 测试 是 工程 中 提高 广告 系统 进化 效率 的 关键 。 

还 有 两 个 与 广告 效果 的 度量 相关 的 问题 。 一 是 如 何在 流量 中 去 除 那 些 恶 意 的 和 
非 主动 的 流量 ， 这 部 分 称 为 流量 保护 (Traffic Protection, TP), HPABRE 
意 流量 的 反 作 次 问题 ， 由 于 是 一 个 “ 道 高 一 尺 、 魔 高 一 丈 ”的 动态 博弈 过 程 ， 因 此 


并 无 确定 不 变 的 技术 和 算法 ， 不 过 也 有 一 些 原则 和 基础 方法 可 以 遵循 。 二 是 需求 方 
丫 企 目 己 的 利益 角度 对 广告 效果 的 核实 性 度量 ， 这 称 为 广告 监测 。 这 两 个 问题 其 实 
有 着 相当 深入 的 联系 ， 在 今天 程序 交易 和 受众 定向 大 量 被 使 用 的 在 线 广告 市 场 中 ， 
这 两 个 问题 在 一 定 程度 上 可 以 结合 起 来 考虑 ， 并 众生 了 所 谓 广 告 安全 的 问题 和 相应 
bU. 

受众 定向 和 程序 交易 三 告 的 另 一 个 重要 影响 是 用 户 的 行为 数据 仓 在 在 不 同 的 广 
告 产 品 乙 间 泄 露 的 可 能 。 因 此 ， 隐 私 保护 技术 与 其 对 立 面 ， 即 去 匿名 化 技术 ， 从 正 
面 或 者 负面 的 角度 都 与 在 线 广告 有 着 密切 的 联系 。 关 于 隐私 保护 相关 问题 及 其 在 广 
告 中 的 可 能 应 用 ， 也 将 是 本 章 涉及 的 内 容 。 


15 .1 创意 优化 
创意 对 于 广告 效果 的 影响 无 疑 是 巨大 的 ， 然 而 我 们 不 能 把 调整 创意 市 来 的 效果 


等 同 于 受众 定向 产生 的 效果 。 因 为 随 着 创意 的 改变 ， 广 告 表达 的 诉求 已 经 发 生 了 变 
化 ， 其 点 击 行为 也 就 不 再 与 其 他 创意 完全 可 比 。 可 以 通过 一 个 例子 来 理解 这 个 问 
题 : 假如 有 一 个 保险 类 型 的 广告 主 ， 将 一 个 宣传 公司 品牌 和 实力 的 品牌 型 创意 变 成 
一 个 用 户 填写 车 险 申请 的 表单 式 创意 ， 如 图 15-1 所 示 。 毫 无 疑问 ， 后 者 的 点 击 率 会 
大 幅度 上 升 。 但 是 实际 上 ， 这 两 个 创意 向 用 户 传达 的 诉求 有 着 相当 大 的 区 别 : 前 者 
的 目的 是 向 潜在 用 户 渗透 性 地 宣传 品牌 的 定位 ， 以 利于 将 来 长 期 的 用 户 转化 和 利润 
空间 ; 而 后 者 的 目的 则 是 短期 内 的 转化 效果 ， 但 对 品牌 特质 的 宣传 有 所 不 足 。 


车 险 计算 器 
算 算 您 的 车 险 省 和 多少 ? 





太平 洋 保险 在 你 身边 
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图 15-1 品牌 型 创意 ( 左 ) 和 效果 型 创意 (8) 
因此 ， 我 们 重点 讨论 在 广告 的 基本 诉求 保持 相对 稳定 的 前 提 下 ， 如 何 调整 创意 
以 提高 效果 。 
15.1.1 程 | 意 


创意 优化 的 一 个 重要 原理 是 我 们 在 第 2 章 广 告 有 效 性 模型 中 介绍 过 的 原则 : 为 
了 提高 用 户 的 关注 程度 ， 需 要 将 向 用 户 推 送 此 广告 的 关键 原因 在 创意 中 明确 表达 出 
来 。 由 于 推荐 原因 众多 ， 这样 的 创意 优化 往往 需要 用 程序 自动 进行 ， 而 不 是 预先 做 
好 大 量 的 素材 。 类 比 于 程序 化 交易 ， 我 们 把 这 类 思路 称 为 程序 化 创意 。 下 面 就 程序 
化 创意 的 思路 给 出 一 些 示 例 性 建议 。 

(1) 地 域 型 创意 。 地 域 定向 是 根据 用 户 的 地 域 信息 投 送 相应 的 广告 ， 如果 能 将 
明确 地 域 指示 性 的 内 容 体 现在 创意 上 ， 往 往 会 对 效果 有 非常 直接 的 帮助 。 例 如 ， 如 
图 15-2 所 示 ， 对 同样 一 个 汽车 广告 ， 对 北京 和 上 海地 域 的 受众 ， 分 别 加 上 当地 经 销 
商 的 联系 电话 。 显 然 ， 对 每 个 城市 制作 一 版 独立 的 素材 是 不 经 济 的 ， 应 该 在 投放 时 
动态 加 入 与 地 域 相关 的 信息 。 


re 
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图 15-2 同一 汽车 广告 在 北京 ( 左 ) 和 上 海 ( 右 ) 的 地 域 型 创意 
( 2 ) 搜索 重 定 向 创意 。 根 据 用 户 的 搜索 行为 提供 的 重 定向 图 片 广 告 ， 如果 能 明 
确 标示 搜索 词 ， 往 往 更 容易 唤起 用 户 的 注意 力 和 兴趣 。 因 此 ， 可 以 采用 图 15-3 所 示 
的 创意 形式 ， 将 用 户 曾 经 的 搜索 词 放 在 图 片 下 方 的 搜索 框 中 ， 现 在 这 也 需要 投放 系 
统 在 线 目 动 完成 。 


— 
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”现在 预订 立 扣 五 折 优 惠 
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图 15-3 搜索 重 定向 创意 示例 


(3) 个 性 化 重 定向 创意 。 这 种 产品 在 6.4.3 节 已 经 做 过 具体 介绍 ， 其 中 展示 的 
单 品 都 是 在 线 动 态 决定 的 ( 参见 图 6-7 ) ， 而 创意 也 是 在 线 合成 的 ， 这 也 是 一 种 程序 
化 的 创意 。 


在 线 广告 的 服务 对 象 由 传统 的 品牌 广告 向 效果 广告 友 生 了 倾斜 ， 传 统 的 由 设计 
人 员 主 导 的 、 品 牌 形象 驱动 的 创意 生产 模式 也 一 定 会 越 来 越 多 地 加 入 机 器 决策 的 、 
效果 导 辐 的 内 容 。 因 此 ， 程 序 化 的 创意 优化 模式 应 该 得 到 足够 的 重视 。 


在 找 出 创意 设计 的 问题 、 优 化 效果 等 方面 ， 点 击 热力 图 是 一 个 非常 重要 的 工 
具 。 点 击 热力 图 是 将 某 一 个 创意 各 位 置 被 点 击 的 密度 用 热力 图 的 方式 呈现 出 来 ， 帮 
助 创意 优化 者 直观 地 发 现 和 解决 其 中 的 问题 。 一 般 来 况 ， 创 意 中 的 若干 主要 信息 聚 
焦点 应 该 会 比较 集中 地 吸引 用 户 点 击 。 如 图 15 -4 所 示 男 ， 在 创意 中 人 物 的 眼神 发 生 
变化 时 ， 用 户 关 注 和 点 击 的 热点 也 有 很 大 的 区 别 。 显 然 ， 在 这 样 的 点 击 热力 图 指导 
F, 创意 的 迭代 优化 可 以 半 定 量 地 进行 ， 并 且 更 加 有 目的 性 。 
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图 15-4 创意 中 人 物 的 眼神 对 点 击 热力 图 的 影响 
不 过 ， 在 程序 化 创意 的 影响 下 ， 点 击 热力 图 的 使 用 有 一 些 障碍 : 由 于 在 线 时 会 
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题 。 不 过 对 于 创意 中 一 些 固定 元 素 的 优化 或 动态 模块 整体 的 效果 评估 ， 热 力图 还 是 
很 有 帮助 。 


15.2 实验 框架 


无 论 是 广告 系统 调整 算法 、 染 构 ， 还 是 投放 时 调整 创意 、 定 向 策略 ， 都 需要 依 
赖 线 上 的 实际 流量 测试 来 确定 其 真实 效果 如 何 。 切 分 部 分 流量 用 于 测试 并 非 难事 ， 
但 是 一 个 实用 的 实验 框架 需要 尽 可 能 多 地 同时 容纳 多 组 实验 ， 以 提高 流量 利用 效率 
和 产品 进化 速度 。 

设计 这 样 一 个 实验 系统 的 天 键 ， 是 利用 系统 模块 乙 间 的 相对 独立 性 ， 用 分 层 的 
结构 来 扩展 实验 容量 。 在 参考 文献 [69] 中 ， 作 者 给 出 了 比较 典型 的 一 种 分 层 实验 
框架 的 架构 ， 如 图 15-5 所 示 。 在 这 一 架构 中 ， 不 同 的 实验 参数 被 分 置 于 不 同 的 实验 
层 中 ， 一 般 来 说 ， 可 以 按 模 块 划分 这 些 实验 层 ， 例 如 在 广告 系统 中 ， 按 检索 、 排 序 
和 展现 将 相应 的 参数 划分 成 三 层 ， 每 层 都 可 以 将 流量 切 分 成 不 同 的 测试 子 集 或 域 。 
显然 ， 在 这 种 分 层 结构 下 ， 不 同 层 上 的 实验 是 可 以 共享 流量 的 ， 这 样 就 大 大 提升 了 
同时 进行 的 实验 数目 。 另 外 ， 系 统 还 预 留 了 一 个 非 重 装 测 试 域 (domain) ， 目 的 是 
方便 有 时 需要 进行 的 、 联 合 调整 各 层 参数 的 一 些 特殊 实验 。 除 了 实验 层 以 外 ， 此 实 
验 框架 还 涉及 了 专门 的 友 布 层 ， 用 于 将 实验 通过 的 参数 逐渐 灰 度 发 布 到 全 流量 上 .。 
同一 个 参数 ， 只 能 出 现在 一 个 实验 层 和 一 个 友 布 层 中 ， 而 优先 级 关系 是 优先 及 用 实 
验 层 参数 ， 其 次 是 发 布 层 参数 ， 最 后 是 默认 参数 。 这 样 的 一 个 兼顾 流量 实验 和 灰 度 
发 布 的 实验 框架 在 实践 中 能 够 满足 大 部 分 情形 下 的 需求 。 


测试 域 





图 15-5 分 层 实验 框架 架构 示意 
那么 在 每 一 层 中 ， 流 量 是 如 何 随机 被 分 到 各 个 域 中 的 呢 ? 对 于 广告 系统 而 言 ， 
按照 每 次 展示 做 随机 分 配 是 不 合适 的 ， 这 是 因为 多 次 广告 展示 之 间 的 相关 性 会 对 测 
试 的 结果 产生 影响 。 正 确 的 做 法 是 按 用 户 划分 ， 即 每 个 用 户 的 广告 展示 请 求 都 被 固 
定 地 发 送 到 同一 个 域 中 。 这 样 做 的 目的 是 使 得 一 个 广告 策略 的 高 阶 或 长 期 影响 能 够 
真实 地 表现 出 来 。 


15 .3 流量 2A EA IA TI 


流量 保护 包括 两 方面 的 内 容 : —SREXIAESESUFHF IIA , RERA 
ABR ; 二 是 反 作 星 ， 即 对 于 恶意 展示 或 流量 来 源 的 去 除 。 从 技术 难度 上 看 ， 我 们 主 
要 关注 的 是 后 一 个 问题 。 反 作 浆 的 检测 方案 ， 在 在 线 投放 和 离线 统计 中 都 有 需求 ， 
并 且 是 广告 计价 和 其 他 数据 统计 的 基础 步骤 。 另 一 个 在 线 完成 的 辅助 任务 是 为 广告 
主 服务 的 广告 监测 服务 ， 它 为 了 完成 广告 的 展示 和 所 击 计数 ， 当 然 也 需要 一 定 的 有 反 
作 次 处 理 ， 因 此 这 两 个 问题 有 着 密切 的 联系 。 


15.3.1 ik 


由 于 广告 有 很 多 的 相关 利益 方 ， 因 此 除了 那些 无 恶意 的 、 机 器 产生 的 流量 ,也 
会 经 常 遇 到 欺骗 性 的 展示 或 点 击 行为 ， 即 作 次 。 作 次 的 具体 手段 五 花 八 门 ， 无 法 一 
一 列举 ， 并 且 随 着 反 作 浆 手段 的 进步 而 不 断 进 步 。 要 在 面 对 广 告 作 浆 时 快速 找到 思 
路 ， 需 要 先 搞 清 作 次 者 的 目的 。 我 们 知道 ， 广 告 活动 是 广告 主 、 媒 体 与 用 户 之 间 三 
方 交 互 的 行为 ， 因 此 广告 中 的 作弊 行为 主要 有 以 下 三 种 情况 。 

(1) 媒体 作弊 。 媒 体 是 广告 活动 的 主要 受益 者 ， 因 而 作弊 的 动力 也 最 强 。 由 于 
大 多 数 广告 网 络 与 媒体 之 间 是 按照 点 击 的 价格 来 结算 ， 因 此 点 击 作弊 是 最 为 常见 
的 ， 当 然 也 存在 为 了 满足 CcPMiJ 单 量 的 需求 而 对 展示 进行 作 浆 的 情形 。 这 种 作 首 的 花 
样 繁多 ， 既 有 将 广告 展示 和 点 击 代码 放 在 非 约定 位 置 上 或 非 用 户 自然 行为 产生 的 流 
量 上 的 方式 ， 也 有 通过 将 广告 位 与 内 容 靠 得 很 近 甚 至 相互 重 王 来 骗取 点 击 的 方式 。 

( 2 ) 广告 平台 作 浆 。 广 告 网 络 或 广告 交易 市 场 这 样 的 广告 平台 也 有 制造 虚假 点 
击 ， 以 获取 更 多 分 成 的 目的 。 而 “”DsP 这 样 的 需求 方 广告 产品 ， 除 了 混入 劣质 流量 的 
广告 展示 、 制 造 虚 假 点 击 以 外 ， 还 会 通过 一 些 作弊 手段 为 广告 主 带 来 虚假 转化 ， 以 
满足 效果 考核 的 要 求 。 

( 3 ) 广告 主 竞争 对 手 作 浆 。 某 些 广告 主 的 竞争 对 手 ， 会 通过 技术 手段 大 量 消耗 
该 广告 主 的 预算 ， 达 到 降低 其 广告 效果 的 非 正常 竞争 目的 。 与 媒体 作弊 不 同 ， 广 告 
主 的 竞争 对 手 很 难 通过 控制 广告 展示 的 方式 来 作 次 ， 而 是 通过 多 次 重复 点 击 广告 的 
形式 来 作 疾 。 由 于 通过 单一 IP 或 cookie 大 量 点 击 广告 很 容易 被 发 现 ， 作 炊 方 往往 
会 通过 频繁 清除 cookie, 改变 IP， 甚 至 通过 木马 控制 多 台 用 户 电 脑 来 达到 作 浆 的 
目的 ， 当 然 ， 这 样 的 作弊 手段 也 被 媒体 或 广告 平台 所 采用 。 

单一 IP 或 cookie 在 大 量 展示 或 点 击 的 作弊 方式 是 最 容易 去 除 的 ， 只 需要 一 定时 
间 段 内 的 展示 或 点 击 设 定 合理 的 上 限 ， 进 而 发 现 那些 显著 超过 上 限 的 IP 或 
cookie 并 加 入 黑 名 单 即 可 。 

对 于 更 复杂 的 ， 通 过 控制 多 台电 脑 来 产生 假 点 击 的 作 首 方式 ， 上面 提 到 的 点 击 


热力 图 也 是 一 个 很 有 用 的 反 作 癣 工具 : 正常 的 用 户 点 击 ， 在 创意 上 的 位 置 分 布 往往 
呈现 与 创意 关键 区 域 相关 的 比较 自然 的 分 布 ; 而 机 器 产生 的 用 户 点 击 ， 其 分 布 要 么 


告 创 意 正常 的 点 击 热点 分 布 与 作 歇 的 点 击 热 点 分 布 的 示例 ， 左 侧 是 自然 点 击 的 热力 
, 右 侧 是 有 作 闲 行为 的 点 击 热力 图 。 可 以 看 出 ， 除 了 上 自然 点 击 区 域外 ， 还 多 了 一 
些 集中 目 均匀 的 点 击 分 布 ， 这 些 明显 不 符合 正常 用 户 的 行为 特征 ， 可 以 认定 为 作 头 
行为 。 需 要 说 明 ， 认 清 作 次 者 的 身份 和 动机 对 于 用 好 点 击 热力 图 反 作 浆 很 有 帮助 , 
因为 这 关系 到 如 何 分 解 某 个 创意 上 的 流量 来 绘制 点 击 热力 图 ， 以 友 现 明确 的 作 次 信 
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图 15-6 目 然 点 击 热点 图 ( 左 ) 与 机 器 作弊 点 击 热点 图 ( ) 对 比 
除了 cookie、IP 级 别 的 统计 以 及 点 击 热点 图 这 些 思 路 以 外 ， 如 果 广 告 系统 能 在 


Javascript 代 码 或 SDK PUSS ELS VITIS EA , RAAT, RachHSJIBIST , 
tB zT hal PR RAH. AOR , TUSSI TERE , BLA 
EE — Ty PSA FUR , LS ERTA. DUEEBJESHUSESRTI — 1 CEEXEJSC 
时 计算 版 本 ， 为 在 线 计 费 和 其 他 实时 反馈 模块 做 过 滤 ; 也 需要 有 一 个 更 加 精细 的 离 
线 版 本 ， 用 于 每 天 处 理 广告 日 志 ， 得 到 最 终 确 认 的 财务 结算 数据 。 由 于 反 作 弊 特征 
和 模型 是 广告 系统 高 度 保密 的 模块 ， 人 在 此 不 展开 讨论 其 细节 。 

流量 劫持 

除了 制造 虚假 展示 和 点 击 的 作 浆 行为 ， 在 广告 市 场 上 还 存在 着 通过 非法 手段 获 
得 广告 展示 或 点 击 的 准 作 次 行为， 而 其 中 最 典型 的 情形 就 是 流量 动 持 。 

所 谓 流 量 支持 ， 就 是 在 无 权 投 放 广 告 的 地 方 强行 投放 ， 或 者 改变 广告 创意 甚至 
营地 页 的 内 容 。 一 般 来 说 ， 只 有 一 些 网 络 底层 服务 的 提供 商 ，, 如 DNS, CDN, BAA 
运营 商 等 ， 才 有 能 力 进行 这 种 动 持 。 流 量 动 持 并 非 互 联网 广告 的 新 问题 ， 在 电视 广 
告 中 也 存在 这 种 现象 ， 如 图 15-7 中 强行 加 入 的 滚动 字幕 广告 。 尽 管 流量 支持 不 是 合 
法 的 商业 产品 ， 但 在 中 国 及 东南 亚 等 地 区 ， 这 确 是 一 个 不 能 忽视 的 广告 渠道 ， 在 服 
务 于 效果 类 广告 主 时 ， 必 须要 了 解 其 客观 存在 并 加 以 应 对 。 
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图 15-7 电视 广告 的 流量 劫持 示例 
下 面 通过 几 个 例子 了 解 流量 劫持 的 具体 手段 。 

(1) 信道 弹 窗 。 通 过 电信 运营 商 对 信道 的 控制 能 力 ， 在 用 户 上 网 时 强行 向 下 行 
内 容 中 插入 弹 窗 广 告 创意 。 这 种 形式 在 ”PC 和 移动 设备 上 都 存在 ， 昌 然 “CCTV 在 
2813 年 “3.:15” 晚 会 对 这 种 灰色 广告 渠道 进行 了 了 曝光， 但 是 至 今 仍然 广泛 存在 ， 并 
且 在 移动 设备 上 大 有 愈演愈烈 之 势 。 

(2) 创意 蔡 换 。 创 意 蔡 换 仍然 是 通过 电信 运营 商 的 信道 ， 将 某 些 网 站 上 的 广告 
创意 直接 替换 为 其 他 创意 ， 显然 ， 这 是 一 种 比 信道 弹 窗 更 加 粗暴 的 支持 行为 。 

( 3 ) 搜索 结果 重 定向 。 由 于 搜索 是 高 商业 价值 的 流量 ， 将 搜索 流量 导向 某 些 搜 
索引 擎 ， 可 以 获得 其 收入 分 成 。 因 此 ， 存 在 一 种 流量 劫持 手段 ， 当 用 户 在 搜索 引擎 
A 输入 某 关键 词 以 后 ， 搜 索 的 结果 页 会 变 成 搜索 引擎 B 提 供 的 。 或 者 在 淘宝 这 类 电 商 
垂直 搜索 中 ， 改 变 结果 商品 的 排序 或 落地 店铺 。 这 虽然 不 是 直接 的 广告 劫持 ， 但 本 
质 也 是 一 样 的 。 


(4) 沙 地 页 来 源 劫 持 。 这 是 最 为 简单 粗暴 的 一 种 劫持 方式 ， 它 并 不 投放 广告 ， 
而 是 在 用 户 访问 广告 主 落地 页 时 ， 直 接 在 URL 上 加 上 广告 来 源 代 码 。 比 如 ， 当 用 户 访 
[Ajnttp: //mkt .mbaobao.com/Xa-hotalfshel11219 这 个 广告 主页 面 时 ， 将 其 修改 
成 http ://mkt.mbaobao.com/ahotalfshelli1219?utm source=* , XH) BEM 
会 将 其 统计 成 某 广 告 渠 道 寓 来 的 访问 。 

这 些 流量 劫持 手段 中 ， 前 三 种 手段 主要 损害 的 是 媒体 利益 ， 而 对 广告 主 来 说 ， 
流量 本 身 则 是 真实 人 存在 的 。 而 第 四 种 就 是 一 种 彻底 的 作弊 行为 了 ， 损 害 的 是 广告 主 
的 利益 。 由 于 有 这 种 非法 动 持 流量 的 存在 ， 严 重 扰乱 了 正常 的 效果 广告 和 程序 化 交 
易 市 场 ， 客 观 上 在 中 国 形成 了 一 个 务 币 驱逐 恨 币 的 环境 一 一 毕竟 努力 提高 拷 术 和 算 
法 水 平 远 不 如 去 买 低 成 本 的 非法 流量 效果 来 得 快 。 因 此 ， 我 们 在 这 里 呼吁 大 家 , — 
起 来 抵制 这 种 劫持 流量 ， 真 正 从 产品 技术 方面 扎 扎实 实地 做 一 些 有 利于 行业 进步 的 
事 。 





15.3.2 [ Seal 


在 线 广 告 区 别 于 线 下 广告 的 重要 特征 就 是 可 监测 性 。 从 需求 方 来 看 ， 和 存在 切实 
的 需要 ， 委 托 某 家 第 三 方 监测 公司 对 实际 友 生 的 展示 或 点 击 数目 进行 核对 ， 以 确保 
目 己 的 利益 。 不 过 监测 的 主要 需求 存在 于 按 CPT 或 CPM 结算 的 合约 广告 中 。 这 是 
因为 在 竞价 广告 系统 中 ， 广 告 主 与 媒体 之 间 并 没有 约定 的 价格 ， 可 以 根据 后 续 的 效 
果 来 调整 目 己 的 出 价 ， 因 此 对 展示 或 点 击 的 监测 并 不 是 强 需 求 。 从 这 里 我 们 可 以 看 
出 ， 效 果 检 测 主 要 的 服务 对 象 是 那些 品牌 广告 主 ， 一般 会 占有 在 线 品牌 广告 投放 1% 
左右 的 预算 。 

借助 监测 代码 或 者 SDK 实 现 广告 展示 或 点 击 的 计数 并 不 困难 。 但 是 当 广 告 投放 基 
于 受众 进行 时 ， 监 测 就 要 困难 多 了 。 例 如 ， 某 广告 计划 要 求 在 男性 用 户 流量 上 投放 1 
666 干 次 的 展示 ， 那 么 如 何 才能 确定 投放 的 结果 满足 这 一 条 件 呢 ? 一 般 采 用 的 方案 是 


告 监 测 提供 商用 采样 加 付费 的 方式 收集 一 个 小 比例 人 群 上 的 真实 用 户 属 性 ， 然 后 
通过 验证 这 个 人 群 上 性 别 的 准确 率 来 反 推 整体 的 投放 数据 。 这 一 方法 看 起 来 十 分 简 
单 ， 不 过 由 于 采样 集 一 般 规 模 不 大 ， 在 人 群 分 布 上 与 投放 人 和 群 相 比 可 能 存在 较 大 的 
偏差 ， 因 此 此 方法 的 关键 在 于 如 何 对 数据 进行 有 效 的 纠偏 。 另 外 ， 即 便 采 用 这 样 的 
方案 ， 也 只 有 部 分 基于 人 口 属性 信息 的 投放 是 可 以 验证 的 ， 而 对 于 基于 兴趣 标签 的 
投放 ， 由 于 对 同一 个 用 户 并 不 存在 确定 的 标准 答案 ， 这 样 的 监测 意义 不 大 。 

由 于 实名 社交 网 络 的 人 口 属性 信息 相对 比较 准确 ， 又 有 很 大 的 规模 ， 因 此 现在 
的 趋势 是 直接 采用 社交 网 络 的 数据 作为 标准 来 进行 定向 广告 的 监测 。 例 如 ， 尼尔森 
就 与 Facebook 合 作 ， 推 出 了 基于 Facebook 人 口 属性 信息 的 广告 监测 服务 。 

当然 ， 广 告 监测 与 反 作 浆 有 着 密 不 可 分 的 联系 ， 所 有 展示 或 点 击 的 计量 都 必须 
在 去 除了 作弊 流量 的 基础 上 进行 。 由 于 广告 监测 是 代表 需求 方 利益 的 服务 ， 一 般 来 
说 其 反 作 浆 规则 比 媒 体 方 或 广告 平台 更 加 有 严格 的 动力 。 


15.3.3 广告 安 


在 越 来 越 复杂 的 广告 投放 和 交易 逻辑 当中 ， 广 告 主 已 经 很 难 像 合 约 广告 中 那样 
非常 明确 地 管理 自己 的 投放 媒体 了 。 但 是 ， 实 践 中 很 多 广告 主义 存在 切实 的 需求 ， 
希望 目 己 的 广告 不 要 出 现在 一 些 特定 内 容 的 媒体 上 。 我 们 在 第 2 章 中 曾经 提 及 ， 上 广告 
预算 除了 被 浪费 的 那 部 分 ， 还 存在 一 部 分 是 会 产生 负面 效果 的 ， 我 们 显然 希望 去 掉 
这 些 有 负面 影响 的 展示 。 例 如 ， 汽车 广告 主 不 希望 自己 的 广告 出 现在 有 关 和 车祸 内 容 
的 页 面 上 ， 也 不 希望 出 现在 一 些 低级 庸俗 内 容 的 网 站 上 。 这 样 的 需求 ， 不 是 简单 的 
广告 可 以 完成 的 ， 而 是 需要 专门 的 服务 来 保证 广告 主 的 品牌 安全 ， 这 样 的 问题 称 为 

告 安全 问题 。 与 广告 安全 相 天 的 天 键 扩 术 是 广告 投放 验证 (ad verification) 
和 可 视 性 ( viewability ) 验证 。 
广告 投放 验证 


广告 投放 验证 的 作用 是 确认 品牌 的 安全 性 ， 并 保证 展示 的 质量 。 其 工作 模式 是 
当 广 告 投放 到 页 面 以 后 ， 如 果 友 现 页 面 的 内 容 不 符合 品牌 安全 的 诉求 ， 则 停止 展示 
广告 主 的 创意 ， 转 而 展示 一 个 与 品牌 无 关 的 创意 。 与 广告 监测 不 同 ， 这 里 的 重点 不 
在 于 计量 效果 ， 而 在 于 阻止 不 恰当 展示 的 发 生 。 

读者 可 能 会 疑惑 ， 既 然 是 在 不 安全 的 页 面 上 荣 投 广告 ， 人 在 广告 请 求 到 来 时 直接 
根据 URL 过 滤 不 融 可 以 了 吗 ? 在 实际 的 广告 交易 中 ， 由 于 多 层 iframe WRE, 8 
时 媒体 会 伪装 自己 的 URL 以 达到 流量 以 次 充 好 的 目的 。 比 如 ， 某 些 高 质量 媒体 会 将 
自己 域名 的 iframe 嵌 套 在 其 他 小 网 站 上 以 冒充 自己 的 流量 ， 从 而 获得 高 的 溢价 。 
因此 ， 必 须要 在 广告 投放 时 ， 进 行 iframe 穿 透 ， 实 时 判断 投放 页 面 的 顶层 URL， 才 

能 进行 广告 投放 验证 。 而 页 面 的 内 容 则 可 以 采用 第 12 章 中 的 半 和 在线 抓 取 系统 来 获 
得 。 

当 有 了 一 些 历 史 经 验 以 后 ， 也 可 以 采用 投放 前 的 验证 方案 ,也 融 是 对 那些 历史 
上 发 现 不 符合 品牌 安全 策略 的 的 URL 或 广告 位 直接 不 参与 广告 交易 ， 这 样 可 以 进 一 
Z7 T JBRSS PAN. 

可 视 性 验证 

品牌 广告 主 的 另 一 个 常见 诉求 是 广告 展示 的 曝光 程度 。 显 然 ， 出 现在 第 二 屏 的 
广告 位 比 第 一 屏 的 广告 位 曝光 程度 要 差 很 多 。 这 个 问题 也 属于 广告 安全 的 范畴 。 

可 视 性 验证 的 技术 方案 一 般 是 判断 浏览 器 是 否 对 广告 创意 友 生 了 泻 染 过 程 ， 如 
果 没 有 ， 那 么 这 次 展示 实际 上 不 是 可 视 的 。 解 决 可 视 性 验证 ， 需 要 对 各 种 浏览 器 做 
充分 的 针对 性 测试 ， 目 前 的 技术 水 平 已 经 可 以 做 到 对 ”95% 以 上 的 浏览 器 内 广告 流量 
进行 可 视 性 验证 ; 但 是 在 移动 应 用 内 广告 中 ， 目 前 还 没有 很 好 的 检测 办 法 。 

可 视 性 验证 同样 有 投放 前 的 方案 ， 也 残 是 对 那些 可 视 比例 很 低 的 广告 位 直接 不 
参与 广告 交易 。 


15.4 [a 数据 安 


告 是 一 个 典型 的 个 性 化 系统 ， 它 需要 大 量 使 用 用 户 的 行为 数据 进行 受众 定 
H, 同时， 在 广告 市 场 中 还 存在 着 数据 交易 的 产品 。 无 论 是 受众 定向 还 是 数据 交 
吻 ， 都 需要 谨慎 地 考虑 对 行为 数据 的 使 用 是 否 会 泄露 用 户 的 隐私 ; 同时 也 要 考虑 拥 
有 数据 的 利益 方 ， 特 别 是 广告 主 ， 是 人 否 在 广告 市 场 中 被 平台 或 竞争 对 手 获得 和 利用 
了 目 己 的 关键 商业 数据 。 


15.4.1 隐 问 ] 题 


隐私 问题 讨论 的 是 用 户 个 人 信息 的 安全 性 ， 不 过 对 这 个 问题 ， 市 场 上 存在 着 一 
定 的 认识 误区 。 实 际 上 ， 隐 私 保护 除了 关心 那些 成 批 的 用 户 资 料 泄露 意外 ， 更 大 的 
挑战 是 针对 有 玖 人 的 隐私 宽 探 ， 即 堪 探 者 任 了 解 被 宽 探 者 一 些 育 景 信息 的 基础 上 ， 即 
用 这 些 育 景 信息 进一步 试图 获取 其 更 多 的 隐私 信息 。 后 面 一 种 挑战 由 于 可 能 是 人 工 
与 机 器 相 结合 ， 而 且 对 成 本 往往 不 敏感 ， 给 隐私 市 来 的 风险 也 最 大 。 一 个 最 生动 的 
例子 ， 可 以 参见 “清华 学 生 用 上 自 担 照 推理 出 王 歼 丹 住 
HE” (http://news.cntv.cn/ent/20110819/105071.shtml) 这 篇 报道 ， 在 这 个 
例子 里 ， 一 名 清华 学 生 通 过 分 析 王 歼 丹 的 微 博 友 帖 和 照片 ， 准 确 地 得 到 了 其 住址 这 
一 隐私 信息 。 下 面 我 们 来 具体 看 一 下 隐私 保护 的 问题 和 原则 。 

1 .隐私 保 护 基 本 原则 

隐私 保护 在 互联 网 个 性 化 服务 友 展 的 很 早 阶段 融 得 到 了 大 家 的 重视 ， 欧 盟 的 
A29 委 员 会 也 对 此 间 题 做 过 深入 的 研究 和 规范 。 目 前 ， 工 业界 有 以 下 一 些 共识 性 的 隐 
私 保护 原则 。 

(1) 要 严格 避免 使 用 个 人 可 辨识 信息 (Personal Identifiable 
Information, PII), PII 是 最 为 重要 的 隐私 信息 ， 它 指 的 是 那些 被 获取 后 可 以 
被 方便 地 定位 到 具体 人 的 信息 ， 例 如 身份 证 号 、 电 话 号 码 、 电 子 邮件 地 址 、 家 庭 住 


址 等 。 这 些 信息 一 旦 被 恶意 获取 ， 会 给 当事人 带 来 非常 大 的 不 便 和 潜在 风险 ， 因 此 
需要 无 条 件 地 严格 保护 。 需 要 说 明 ， 广 告 系统 中 经 常 使 用 的 用 户 标识 ， 如 cookie、 
IMEI 等 ， 由 于 不 具有 方便 地 辨识 人 的 作用 ， 因 此 不 属于 PII。 

( 2) 用 户 有 权 要 求 系统 停止 跟踪 和 使 用 自己 的 行为 数据 。 如 图 15-8 所 示 ， 当 向 
用 户 提 供 行 为 定向 广告 时 ， 广告 提供 商 应 该 给 出 明确 的 提示 ， 如 图 中 的 广告 创意 右 
上 和 角 的 “Adchoicesl2”。 如 果 用 户 对 自己 的 行为 被 使 用 感到 不 满 ， 可 以 通过 此 入 
口 得 到 更 多 的 详细 说 明 ， 并 且 可 以 通过 说 明 页 面 上 的 “opt ”0ut” 操 作 通 知 系统 停 
止 跟踪 和 使 用 自己 的 行为 数据 。 系 统 得 到 通知 后 ， 必 须 停止 记录 该 用 户 的 行为 信 
息 ， 也 不 再 向 其 投放 行为 定向 广告 。 这 样 的 入 口 给 了 用 户 决 定 是 否 接 受 个 性 化 广告 
的 权利 ， 对 特定 情形 下 的 隐私 保护 非常 重要 。 


Ad Choices: Why Did | Get This Ad? 
OVERSTOCK CLEA viel aepo m cot A 


18 Piece Set Android Dawgs Women's 


4GB Tablet PC 9" Cozy Boots 
- 人 
F » 
E e 
P This ad has bee ohtt 








u 


Price Save Price — Save 


$59 76% $19 76) 











图 15-8 Ad Choices 示 例 
( 3 ) 不 应 长 期 保留 和 使 用 用 户 行为 数据 。 即 使 用 户 同意 接受 行为 定向 广告 ， 广 
告 平台 在 数据 的 使 用 和 存储 上 也 应 该 有 所 节制 ， 长 期 保留 用 户 行为 对 受众 定向 价值 
有 限 ， 同 时 又 加 大 了 数据 泄露 的 风险 。 因 此 应 该 只 保存 一 段 时 期 以 内 的 行为 数据 ， 
过 期 的 数据 如 果 并 非 与 业务 直接 相关 ， 物 理 上 不 应 再 存储 。 
( 4) 工程 上 还 需要 特别 注意 权限 的 严格 分 配 和 最 小 数据 访问 的 原则 。 工 程 师 在 
调试 程序 时 ， 最 好 是 使 用 采样 过 的 、 关 键 信息 被 匿名 化 处 理 过 的 数据 子 集 ， 而 在 生 


产 系 统 中 通过 特别 的 密 钥 访问 原始 数据 全 集 。 而 不 需要 开发 数据 处 理 程序 的 人 ，, 包 
括 管理 层 ， 也 不 应 当 有 数据 访问 的 权限 。 

上 面 的 这 些 原 则 相当 基本 ， 也 非常 重要 ， 是 广告 系统 、 推 荐 系统 在 用 户 行 为 数 
据 使 用 中 首先 要 遵循 的 。 不 过 ， 这 些 原则 并 不 能 解决 一 些 深 层次 的 数据 隐私 泄露 问 
题 ， 对 此 我 们 还 需要 更 加 深入 地 认识 与 并 给 出 对 集 。 

2.Quasi-Identifier 与 K-Anonymity 

PII 是 可 以 辨识 个 人 身份 的 隐私 信息 ， 那 么 是 不 是 非 ”PII 的 信息 丈 无 法 辨识 身 
份 了 呢 ?” 举 个 例子 ， 假 设 有 这 样 一 条 用 户 信息 : “姓名 : XXX ; 手机 号 : XXX; 年 
we: 36; 工作 地 点 : 上 海 市 携程 大 厦 ; 性 别 : 男 ; 职位 : 测试 工程 师 ; 爱好 : 羽毛 
tk; Hi : 15686 元 ”。 其 中 的 “姓名 ”、“ 手 机 号 ”等 PII 已 经 被 隐藏 。 不 过 ， 
如 果 此 用 户 的 一 个 朋友 看 到 这 条 记录 ， 根 据 “ 年 龄 、 工 作 地 点 、 性 别 、 职 位 、 爱 
好 ”这 些 非 PII 的 组 合 ， 还 是 很 容易 得 知 是 谁 的 信息 ， 从 而 也 就 得 到 了 “月 新 ”这 一 
隐私 信息 。 

在 上 面 的 例子 里 ，“ 年 龄 、 工 作 地 点 、 性 别 、 职 位 、 爱 好 ”这 组 信息 虽然 单独 
看 来 都 无 法 确定 一 个 人 ， 但 组 合 在 一 起 有 可 能 让 熟人 确定 出 对 应 的 人 ， 这 样 的 信息 
称 为 “Quasi-Identifier”。 由 于 有 这 样 的 Quasi-Identifier 的 存在 ， 即 使 没有 
提供 PII， 仍然 存在 比较 高 的 隐私 泄露 风险 ， 这 一 点 希望 引起 大 家 的 注意 。 

有 没有 什么 办 法 能 够 降低 这 一 挑战 市 来 的 风险 呢 ”简单 的 思路 是 将 Quasi- 
Identifier 做 一 定 程度 的 泛 化 。 例 如 ， 将 “年 龄 : 36 岁 ” 泛 化 成 “年 龄 30-40 
岁 ”; 将 “工作 地 点 : 上 海 市 携程 大 厦 ” 泛 化 成 “工作 地 点 : 上 海 市 ”。 如 果 泛 化 
的 结果 ， 使 得 数据 集 里 的 每 一 组 Quasi-Identifier 的 实例 都 能 找到 K 条 与 其 相同 
的 ， 那 么 我 们 就 说 实现 了 K-Anonymity。 显 然 ， 当 K 的 值 取 得 比较 合理 时 ， 隐 私 泄 
露 的 风险 也 融 降 低 了 不 少 。 

Quasi-Identifier 与 K-Anonymity 并 不 是 互联 网 隐私 问题 的 产物 ， 而 是 在 数 


据 库 领域 就 有 的 研究 。 它 给 了 我 们 很 大 的 局 发 : 当 背 景 信息 充分 ， 而 这 些 信息 又 较 
为 稀 踊 时 ， 隐 私 问题 的 挑战 会 变 得 更 大 。 而 在 以 互联 网 广告 、 推 荐 等 为 代表 的 个 性 
化 系统 相 天 的 数据 交易 中 ， 这 样 的 风险 变 得 空前 严峻 。 

3 . 稀 玖 行为 数据 的 挑战 

在 计算 广告 这 样 的 个 性 化 互联 网 应 用 中 ， 对 一 个 用 户 的 描述 不 再 限于 上 面 例子 
中 的 基本 信息 ， 而 是 包括 了 其 大 量 的 行为 数据 。 行 为 数据 的 特点 是 极为 稀 踊 ， 换 句 
话说 ， 任 何 两 个 用 户 的 行为 数据 都 几乎 不 可 能 是 相同 的 ， 也 很 难 通 过 K-Anonymity 
的 方案 来 解决 。 那 么 是 否 可 以 通过 行为 数据 来 反 推 用 户 的 隐私 呢 ? 答案 是 肯定 的 ， 
而 且 有 实际 的 案例 发 生 。 

在 著名 的 Netflix 百 万 美元 推荐 大 赛 % 中 ， 主 办 方 公布 了 比赛 用 的 数据 库 ， 其 中 
的 关键 用 户 信 息 已 经 去 除了 PII， 并 做 了 K-Anonymity 的 处 理 。 不 过 ， 用 户 的 观 影 记 
录 和 打分 由 于 是 推荐 使 用 的 主要 数据 并 未 做 处 理 。 当 数据 公布 后 ， 恰 好 有 一 位 关注 
者 在 数据 中 发 现 了 一 条 记录 ， 从 其 观看 的 影片 和 评价 分 数 来 看 ， 集 合 可 以 确定 无 疑 
是 自己 的 另 一 位 朋友 ， 而 同样 在 这 个 用 户 观 影 记 录 中 ， 还 发 现 了 一 些 同性 恋 题 材 的 
影片 。 读 者 显然 明白 这 意味 着 什么 ， 实 际 上 ， 他 的 朋友 不 想 为 人 所 知 的 同性 恋 隐私 
被 这 样 一 个 推荐 大 赛 无 意 中 港 露 了 。 由 于 稀 踊 的 行为 数据 很 难 通过 简单 技术 处 理 模 
糊 用 户 间 的 区 别 ， 再 加 上 其 他 一 些 原因 ， 这 一 大 赛 就 没有 继续 举办 下 去 。 

在 参考 文献 [66] 中 ， 作 者 对 上 面 的 隐私 安全 问题 进行 了 更 加 系统 的 研究 ， 发 现 
通过 简单 的 算法 就 可 以 将 Netflix 给 出 的 数据 与 另 一 个 IMDb 给 出 的 数据 库 进 行 
用 户 身份 上 的 对 应 ， 而 且 准 确 率 相当 高 。 抛 开具 体 的 方法 不 谈 ， 这 一 研究 向 我 们 揭 
示 的 问题 是 : 通过 稀 朴 的 行为 数据 ， 可 以 比较 容易 地 定位 自己 熟悉 的 人 ， 并 进而 获 
取 其 相关 隐私 信息 。 这 一 问题 的 发 现 使 工业 界 对 隐私 安全 问题 的 认识 大 大 提高 ， 
提醒 我 们 在 数据 交易 和 丝 漏 过 程 中 ， 要 特别 注意 这 方面 巨大 的 风险 。 这 也 催生 了 与 
深度 个 性 化 系统 中 隐私 安全 相关 的 差分 隐私 (differential privacy ) “问题 的 


研究 。 

坦率 地 讲 ， 稀 玖 行为 数据 给 隐私 保护 市 来 的 巨大 风险 还 并 没有 成 熟 的 解决 方 
案 ， 这 无 疑 将 是 大 规模 行为 数据 利用 头 上 的 达 摩 克 里 斯 乙 剑 。 我 们 在 实际 的 工业 实 
践 中 ， 需 要 对 此 问题 有 一 定 程度 的 认识 和 理解 ， 并 尽 可 能 考虑 到 自己 的 业务 过 程 中 
与 此 相关 的 隐私 安全 风险 。 


15.4.2 程 交易 中 的 数据 安 


程序 化 交易 的 产生 使 得 在 线 广告 市 场 可 以 综合 利用 需求 方 和 供给 方 的 数据 来 完 
成 更 加 精准 的 广告 决策 。 当 然 ， 这 样 的 便利 性 也 是 一 把 双 刃 剑 ， 在 数据 得 到 更 加 充 
分 利用 的 同时 ，RTB 中 供给 方 和 需求 方 对 于 数据 安全 性 的 顾虑 和 诉求 也 必须 加 以 考 

1. 供 给 方 数据 安全 

我 们 先 来 看 看 供给 方 的 数据 安全 性 问题 。 由 于 在 RTB 过 程 中 ，ADX 需 要 向 参与 竞 
价 的 DSP 广 播 每 次 展示 的 _URL 和 cookie， 使 得 DSP 理 论 上 存在 规模 化 监听 媒体 用 户 
行为 的 可 能 。 假 设 有 某 个 恶意 的 DSP 对 于 能 够 参与 竞价 的 所 有 广告 请 求 都 以 很 低 的 
价格 参与 竞价 ， 目 的 不 在 于 赢得 流量 ， 而 在 于 收集 媒体 上 的 用 户 行为 ， 这 就 产生 了 
媒体 数据 的 安全 问题 ， 我 们 将 其 称 为 供给 万 数据 安全 ， 第 6 章 介绍 RTB 原 理 时 也 曾经 
提 到 过 这 一 问题 。 

供给 方 的 数据 安全 问题 尽管 在 RTB 中 确实 存在 ， 但 是 并 不 是 想象 中 那样 严重 。 可 
以 回顾 一 下 14.1.2 节 介绍 过 的 询 价 优化 技术 : 由 于 带宽 的 限制 ， 实际 上 在 每 次 询 
价 时 ，ADX 应 该 尽 可 能 只 向 那些 最 可 能 赢得 亮 价 的 DSP 发 送 询 价 请 求 ， 而 那些 以 恶意 
收集 数据 为 目的 的 DSP， 在 理想 情况 下 应 该 被 挡 在 大 部 分 的 询 价 以 外 。 

2. 需 求 方 数据 安全 

再 来 看 看 需求 方 的 数据 安全 性 问题 。 在 。” ”RTB 的 环境 下 ， 由 于 定制 化 标签 的 引 


入 ,三 告 主 的 第 一 方 数据 也 暴露 在 了 广告 交易 的 过 程 中 ， 而 这 些 数据 有 的 是 广告 主 

的 核心 数据 ， 需 要 认真 考虑 其 安全 性 问题 。 为 了 表达 更 加 清楚 ， 我 们 用 图 15-9 所 示 
的 例子 来 说 明 。 假 设 有 两 个 克 语 教育 类 广告 主 “ 英 孚 教育 ”和 “华尔街 英语 ”， 两 

者 都 通过 DSP 进行 重 定向 访客 找 回 ， 那么 他 们 分 别 利用 RTB 的 方式 接触 到 了 自己 的 访 
客 集合 。 需 要 注意 的 是 ， 这 里 的 顾客 集合 实际 上 是 广告 主 的 私有 数据 ， 也 是 特别 具 

有 商业 价值 的 数据 ， 然 而 ，DSP、ADX 和 媒体 都 有 可 能 在 ”RTB 过程 中 得 到 这 些 访客 
SG. WER DSP 希望 制造 更 加 激烈 的 竞价 环境 ， 获 得 更 高 的 利润 ， 那 么 它 实际 上 可 
以 将 这 两 个 广告 主 的 顾客 集合 合并 在 一 起 ， 并 生产 一 个 相应 的 用 户 标签 吸引 双方 来 

对 此 标签 竞价 。 这 种 做 法 的 实质 是 在 竞争 对 手 之 间 倒 卖 顾客 集合 ， 并 且 可 以 通过 比 

较 模 糊 的 标签 名 字 ( 例如 为 上 面 两 个 广告 主 的 访客 集合 打上 “英语 教育 ”的 人 群 标 

签 ) 非常 隐 菩 地 操作 。 随 着 竞 价 激烈 程度 的 增加 ， 原 本 属于 广告 主 的 利润 就 向 市 场 

其 他 环节 友 生 了 转移 ， 这 个 问题 束 是 需求 方 数据 安全 性 问题 。 
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图 15-9 需求 万 数据 安全 问题 示例 
需求 方 数据 安全 性 在 某 种 意义 上 比 供给 方 数据 安全 性 更 加 重要 ， 因 为 这 决定 了 
广告 主 是 否 可 以 放心 地 通过 ”RTB 进 行 广告 采 买 。 坦 率 地 讲 ， 当 前 的 广告 交易 市 场 ， 


WALL STREET ENGLISH 
— 


对 这 个 问题 的 重视 程度 和 解决 方案 都 还 很 不 充分 。 所 以 要 提醒 广告 主 ， 在 广告 交易 
中 使 用 上 自己 的 第 一 方 数据 时 ， 特 别 是 面 对 强势 的 广告 平台 时 ， 要 特别 留意 数据 安全 
性 的 问题 。 


15.5 £t 


1. 人 在 移动 广告 中 ， 流 量 保护 可 能 会 遇 到 哪些 新 问题 ? 会 有 哪些 新 的 方法 和 特 
征 ? 

2 .调研 一 下 移动 应 用 下 载 类 广告 的 转化 流程 以 及 相应 的 监测 环节， 并 比较 其 与 
标准 展示 广告 监测 的 不 同 之 处 。 

3 .在 一 个 电 商 平台 上 的 某 家 网 店 中 产生 的 用 户 行 为 数据 ， 平台、 网 店 和 用 户 应 
该 对 这 些 数 据 的 记录 和 使 用 分 别 拥 有 什么 权利 ? 














































































































































































































































































































日 FAL H p“ = ie] =) SAEH = d 
161. 来 源 : http://site.douban.com/106407/widget/notes/335509/note/252343905/, IE 求 追踪 的 热点 图 ， 不 过 考虑 到 其 与 点 击 热力 医 用 它 来 说 明 问 题 
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